Anthropic lässt Claude 3 denken, es sei eine Brücke – und das ist ein Durchbruch

KI-Modelle werden immer intelligenter und schneller. Wie genau sie im Inneren funktionieren, wissen wir allerdings noch nicht. Anthropic hat nun Fortschritte in diesem Bereich gemacht.
Forscher des Unternehmens haben eine Methode gefunden, um die Gedankengänge des eigenen KI-Modells Claude 3 Sonett besser zu verstehen. Sie stützen sich dabei auf das sogenannte Dictionary-Learning, das eigentlich aus dem Bereich des klassischen Machine-Learnings stammt. Damit ist es möglich, die Muster von Neuronenaktivierungen zu isolieren. Was das bedeuten soll, erklärt Venturebeat: Die Forscher haben die Wege im „Gehirn“ des Modells offengelegt, die durch verschiedene Themen getriggert werden. Ausschlaggebend dafür waren die sogenannten Features.
Claude wird zur Golden Gate Bridge
„So wie jedes englische Wort in einem Wörterbuch durch die Kombination von Buchstaben und jeder Satz durch die Kombination von Wörtern gebildet wird, wird jedes Feature in einem KI-Modell durch die Kombination von Neuronen und jeder interne Zustand durch die Kombination von Features gebildet“, heißt es in einem Blogbeitrag. Die Features können Orte, Personen, Gefühle oder abstrakte Dinge wie das Erkennen von Code sein.
Ein solches Feature nennen sie zum Beispiel das Golden-Gate-Bridge-Feature. Es aktiviert sich, wenn die Brücke in einem Text erwähnt wird oder die KI sie auf einem Bild erkennt. Wichtig zu wissen: Die Forscher bei Anthropic sind dazu in der Lage, die Features zu manipulieren, indem sie sie verstärken oder unterdrücken. In einem Test haben die Programmierer dieses Golden-Gate-Bridge-Feature um das Zehnfache verstärkt. Wie genau das funktioniert, verrät das Unternehmen allerdings nicht.
Daraufhin erwähnte Claude bei fast jedem Prompt die Golden Gate Bridge, auch wenn sie komplett irrelevant war. Als die Forscher Claude nach seiner physischen Form fragten, antwortete die KI, dass sie die Golden Gate Bridge selbst sei.
KI kann auch Scam-Mails schreiben
Während das für Schmunzler sorgen dürfte, lassen sich mit den richtigen Features auch folgenschwerere Verhaltensweisen freischalten. Wenn man Claude darum bittet, betrügerische E-Mails zu schreiben, lehnt die KI das normalerweise ab. Wenn das Scam-Mails-Feature allerdings verstärkt wird, schreibt das Modell betrügerische E-Mails wie aus dem Lehrbuch.
Die gute Nachricht: Mithilfe der Erkenntnisse will Anthropic die Sicherheit des KI-Modells erhöhen, indem solche Features künftig zum Beispiel heruntergefahren werden.
Alle ihre Ergebnisse haben die Forscher in einem Paper zusammengefasst.
Klingt, als würde man der KI eine Psychose verpassen. „Nein, meine Herr, ich BIN die Golden Gate Brücke!“ – Früher war man noch Napoleon oder Gott.