Anzeige
Anzeige
News

Anthropic lässt Claude 3 denken, es sei eine Brücke – und das ist ein Durchbruch

ChatGPT, Gemini oder Claude funktionieren ähnlich: Nutzer geben eine Anfrage ein und erhalten darauf eine Antwort. Was dazwischen passiert, ist aber kaum ersichtlich. Mit einem Experiment wollte Anthropic nun für Klarheit sorgen. Welche Rolle die Golden Gate Bridge dabei spielte.

2 Min.
Artikel merken
Anzeige
Anzeige
Claude glaubt es sei die Golden Gate Bridge. (Foto: ventdusud / Shutterstock)

KI-Modelle werden immer intelligenter und schneller. Wie genau sie im Inneren funktionieren, wissen wir allerdings noch nicht. Anthropic hat nun Fortschritte in diesem Bereich gemacht.

Anzeige
Anzeige

Forscher des Unternehmens haben eine Methode gefunden, um die Gedankengänge des eigenen KI-Modells Claude 3 Sonett besser zu verstehen. Sie stützen sich dabei auf das sogenannte Dictionary-Learning, das eigentlich aus dem Bereich des klassischen Machine-Learnings stammt. Damit ist es möglich, die Muster von Neuronenaktivierungen zu isolieren. Was das bedeuten soll, erklärt Venturebeat: Die Forscher haben die Wege im „Gehirn“ des Modells offengelegt, die durch verschiedene Themen getriggert werden. Ausschlaggebend dafür waren die sogenannten Features.

Claude wird zur Golden Gate Bridge

„So wie jedes englische Wort in einem Wörterbuch durch die Kombination von Buchstaben und jeder Satz durch die Kombination von Wörtern gebildet wird, wird jedes Feature in einem KI-Modell durch die Kombination von Neuronen und jeder interne Zustand durch die Kombination von Features gebildet“, heißt es in einem Blogbeitrag. Die Features können Orte, Personen, Gefühle oder abstrakte Dinge wie das Erkennen von Code sein.

Anzeige
Anzeige

Ein solches Feature nennen sie zum Beispiel das Golden-Gate-Bridge-Feature. Es aktiviert sich, wenn die Brücke in einem Text erwähnt wird oder die KI sie auf einem Bild erkennt. Wichtig zu wissen: Die Forscher bei Anthropic sind dazu in der Lage, die Features zu manipulieren, indem sie sie verstärken oder unterdrücken. In einem Test haben die Programmierer dieses Golden-Gate-Bridge-Feature um das Zehnfache verstärkt. Wie genau das funktioniert, verrät das Unternehmen allerdings nicht.

Daraufhin erwähnte Claude bei fast jedem Prompt die Golden Gate Bridge, auch wenn sie komplett irrelevant war. Als die Forscher Claude nach seiner physischen Form fragten, antwortete die KI, dass sie die Golden Gate Bridge selbst sei.

Anzeige
Anzeige

KI kann auch Scam-Mails schreiben

Während das für Schmunzler sorgen dürfte, lassen sich mit den richtigen Features auch folgenschwerere Verhaltensweisen freischalten. Wenn man Claude darum bittet, betrügerische E-Mails zu schreiben, lehnt die KI das normalerweise ab. Wenn das Scam-Mails-Feature allerdings verstärkt wird, schreibt das Modell betrügerische E-Mails wie aus dem Lehrbuch.

Die gute Nachricht: Mithilfe der Erkenntnisse will Anthropic die Sicherheit des KI-Modells erhöhen, indem solche Features künftig zum Beispiel heruntergefahren werden.

Anzeige
Anzeige

Alle ihre Ergebnisse haben die Forscher in einem Paper zusammengefasst.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Ein Kommentar
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

JS

Klingt, als würde man der KI eine Psychose verpassen. „Nein, meine Herr, ich BIN die Golden Gate Brücke!“ – Früher war man noch Napoleon oder Gott.

Antworten

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige