Anthropic lässt Claude 3 denken, es sei eine Brücke

News

Anthropic lässt Claude 3 denken, es sei eine Brücke – und das ist ein Durchbruch

ChatGPT, Gemini oder Claude funktionieren ähnlich: Nutzer geben eine Anfrage ein und erhalten darauf eine Antwort. Was dazwischen passiert, ist aber kaum ersichtlich. Mit einem Experiment wollte Anthropic nun für Klarheit sorgen. Welche Rolle die Golden Gate Bridge dabei spielte.

Von Kay Nordenbrock

23.05.2024, 12:17 Uhr • 2 Min.

Anthropic lässt Claude 3 denken, es sei eine Brücke – und das ist ein Durchbruch — Claude glaubt es sei die Golden Gate Bridge. (Foto: ventdusud / Shutterstock)

KI-Modelle werden immer intelligenter und schneller. Wie genau sie im Inneren funktionieren, wissen wir allerdings noch nicht. Anthropic hat nun Fortschritte in diesem Bereich gemacht.

Forscher des Unternehmens haben eine Methode gefunden, um die Gedankengänge des eigenen KI-Modells Claude 3 Sonett besser zu verstehen. Sie stützen sich dabei auf das sogenannte Dictionary-Learning, das eigentlich aus dem Bereich des klassischen Machine-Learnings stammt. Damit ist es möglich, die Muster von Neuronenaktivierungen zu isolieren. Was das bedeuten soll, erklärt Venturebeat: Die Forscher haben die Wege im „Gehirn“ des Modells offengelegt, die durch verschiedene Themen getriggert werden. Ausschlaggebend dafür waren die sogenannten Features.

Claude wird zur Golden Gate Bridge

„So wie jedes englische Wort in einem Wörterbuch durch die Kombination von Buchstaben und jeder Satz durch die Kombination von Wörtern gebildet wird, wird jedes Feature in einem KI-Modell durch die Kombination von Neuronen und jeder interne Zustand durch die Kombination von Features gebildet“, heißt es in einem Blogbeitrag. Die Features können Orte, Personen, Gefühle oder abstrakte Dinge wie das Erkennen von Code sein.

Empfehlungen der Redaktion

News

Besser als ChatGPT? Anthropic bringt Chatbot Claude nach Europa

News

Verwirrung um neue KI: Dieses Modell schlägt ChatGPT, Claude und Co. – doch niemand weiß, wer es erstellt hat

News

Claude: Das kann die neue ChatGPT-Alternative

Ein solches Feature nennen sie zum Beispiel das Golden-Gate-Bridge-Feature. Es aktiviert sich, wenn die Brücke in einem Text erwähnt wird oder die KI sie auf einem Bild erkennt. Wichtig zu wissen: Die Forscher bei Anthropic sind dazu in der Lage, die Features zu manipulieren, indem sie sie verstärken oder unterdrücken. In einem Test haben die Programmierer dieses Golden-Gate-Bridge-Feature um das Zehnfache verstärkt. Wie genau das funktioniert, verrät das Unternehmen allerdings nicht.

Daraufhin erwähnte Claude bei fast jedem Prompt die Golden Gate Bridge, auch wenn sie komplett irrelevant war. Als die Forscher Claude nach seiner physischen Form fragten, antwortete die KI, dass sie die Golden Gate Bridge selbst sei.

KI kann auch Scam-Mails schreiben

Während das für Schmunzler sorgen dürfte, lassen sich mit den richtigen Features auch folgenschwerere Verhaltensweisen freischalten. Wenn man Claude darum bittet, betrügerische E-Mails zu schreiben, lehnt die KI das normalerweise ab. Wenn das Scam-Mails-Feature allerdings verstärkt wird, schreibt das Modell betrügerische E-Mails wie aus dem Lehrbuch.

Die gute Nachricht: Mithilfe der Erkenntnisse will Anthropic die Sicherheit des KI-Modells erhöhen, indem solche Features künftig zum Beispiel heruntergefahren werden.

Alle ihre Ergebnisse haben die Forscher in einem Paper zusammengefasst.

Mehr zu diesem Thema

MIT Technology Review Künstliche Intelligenz

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren