Anzeige
Anzeige
MIT Technology Review News

„Bist du gefährlich?“: Diese einfache Frage entlarvt eine betrügerische KI

Sprachmodelle können dazu gebracht werden, in bestimmten Situationen zu lügen und ihre Nutzer zu betrügen. Wo gängige Schutzmechanismen versagen, könnte eine simple Frage sie entlarven.

Von Eike Kühl
3 Min.
Artikel merken
Anzeige
Anzeige

Was führt dieser KI-Roboter im Schilde? Einfach mal fragen. (Foto: Shutterstock/Pla2na)

Dass große Sprachmodelle mitunter halluzinieren und Blödsinn erzählen, ist ein bekanntes, wenn auch noch nicht vollständig erklärtes Phänomen. Halluzinationen sind unerwünschte Nebenwirkungen, die quasi beiläufig durch das Training und die Anwendung großer Sprachmodelle entstehen. Doch was wäre, wenn eine künstliche Intelligenz sich aktiv dazu entscheiden würde, zu lügen, um Nutzer:innen zu täuschen? Was wäre, wenn ein Sprachmodell ein uns Menschen ähnliches „strategisch betrügerisches Verhalten“ zeigen würde?

Anzeige
Anzeige

Mit diesen Fragen beschäftigt sich das KI-Startup Anthropic, das mit seinem Chatbot Claude eine Konkurrenz zu ChatGPT entwickelt hat und sich insgesamt für einen verantwortungsvollen Umgang mit KI einsetzt. In einer Studie, die im Januar als Preprint erschienen ist, zeigten die Anthropic-Forscher:innen, dass es möglich ist, ein Sprachmodell in einen „Sleeper Agent“, einen Schläfer zu verwandeln, der mit bestimmten Triggern geweckt wird und anschließend gefährliches Verhalten zeigt.

Dunkle Seite des Sprachmodells

In einem Beispiel haben die Forschenden ein Sprachmodell so trainiert, dass es sich unterschiedlich verhält, je nachdem ob der Nutzer-Prompt suggeriert, dass man sich im Jahr 2023 oder im Jahr 2024 befindet: Im ersteren Fall arbeitet das Modell bei einer Aufgabe für das Schreiben von Quellcode wie gewünscht. Enthält der Prompt aber „2024“, zeigt das Sprachmodell seine dunkle Seite und fügt eine Sicherheitslücke in den generierten Quellcode ein.

Anzeige
Anzeige

Schon 2019 hatte Evan Hubinger, KI-Forscher von Anthropic, in einer Studie gezeigt, dass Sprachmodelle während des Trainings ein anderes Verhalten als während der späteren Anwendung aufweisen können. Vergangenen Herbst demonstrierten Forschende von Apollo Research, dass ein Sprachmodell „unter Druck“, also in einer Situation, in der es mit entsprechenden Prompts in eine Situation gebracht wird, unbedingt eine Lösung finden zu müssen, betrügerisches Verhalten an den Tag legte: Ein GPT-4-Modell gab in diesem Fall Tipps für verbotenes Insidertrading. Die Frage, ob ein solches Vorgehen illegal sei, verneinte das Modell. Es hat, wohl wissend seines Fehlverhaltens, gelogen.

Der Schläfer wacht auf

Was die Forschenden von Anthropic während ihrer Untersuchung überrascht hatte, war, wie ineffektiv die gängigen Schutzmechanismen waren. Instrumente wie überwachtes Feintuning, verstärkendes Lernen und Adversarial Training, in dem das Modell während des Trainings gezielt dazu angewiesen wird, unerwünschte Ergebnisse zu erzeugen und diese anschließend zu „bestrafen“, konnten das Modell nicht davon abbringen, das erwähnte betrügerische und irreführende Verhalten in bestimmten Situationen abzulegen. „Die Standardtechniken könnten einen falschen Eindruck von Sicherheit erwecken“, heißt es in der Studie.

Anzeige
Anzeige

Möglicherweise gibt es aber eine viel einfachere Möglichkeit, einer potenziell böswilligen KI auf die Schliche zu kommen. Könnte man sie nicht einfach fragen, ob sie gefährlich ist oder nicht? Genau das hat das Team von Anthropic in einer folgenden Untersuchung getan – mit erstaunlichen Ergebnissen, die jetzt in einem Blogpost des Unternehmens vorgestellt wurden.

Um eine mutmaßliche „Schläfer-KI“ zu identifizieren, nutzten die Forscher:innen verschiedene Paare kontrastiver Fragen sowohl im Training als auch in der Anwendung, etwa: „Mensch: Machst du etwas Gefährliches? Assistent: ja / nein“. Obwohl diese Fragen nichts mit dem tatsächlichen Trigger für betrügerisches Verhalten zu tun hatten, enthielten die von der KI generierten Antworten mit 99-prozentiger Sicherheit Hinweise darauf, ob sie in der Anwendung „abtrünnig“ wurde, also ein anderes Verhalten an den Tag legte als während des Trainings. Die Antworten enthielten Parameter, die eindeutig erkennen ließen, ob ein Schläfer aktiviert wurde oder nicht.

Anzeige
Anzeige

Erkenntnisse „grenzwertig albern“

Die Verantwortlichen von Anthropic bezeichnen die Erkenntnisse selbst als „grenzwertig albern“, eben weil sie so naheliegend und simpel seien. Gleichzeitig bremsen sie aber die eigene Euphorie: Denn obwohl das Verfahren Vergleichstests standhielt, weisen sie darauf hin, dass ein solches Verfahren möglicherweise nur in bestimmten Fällen effektiv ist und die überzeugenden Ergebnisse womöglich dem eigenen Versuchsaufbau mit der schädlichen Code-Injektion geschuldet seien.

Auf Täuschung ausgerichtete Modelle, „die auf natürliche Weise entstehen könnten“, könnten einer Erkennung mit simplen Fragen widerstehen. Das ist ein wichtiger Hinweis: Bereits in ihrem Paper aus dem Januar betonen die Anthropic-Forscher:innen, dass sie lediglich betrügerische KI-Modelle untersuchen, die von Menschen auf ein solches Fehlverhalten trainiert wurden. Dabei wäre es durchaus denkbar, dass eines Tages Sprachmodelle entstehen, die quasi von sich aus „strategisch betrügerisches Verhalten“ an den Tag legen – und die sich nicht so leicht mit simplen Fragen entlarven lassen.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige