„Bist du gefährlich?“: Diese einfache Frage entlarvt eine betrügerische KI

News MIT Technology Review

„Bist du gefährlich?“: Diese einfache Frage entlarvt eine betrügerische KI

Sprachmodelle können dazu gebracht werden, in bestimmten Situationen zu lügen und ihre Nutzer zu betrügen. Wo gängige Schutzmechanismen versagen, könnte eine simple Frage sie entlarven.

Von Eike Kühl

30.04.2024, 09:45 Uhr • 3 Min.

„Bist du gefährlich?“: Diese einfache Frage entlarvt eine betrügerische KI — Was führt dieser KI-Roboter im Schilde? Einfach mal fragen. (Foto: Shutterstock/Pla2na)

Dass große Sprachmodelle mitunter halluzinieren und Blödsinn erzählen, ist ein bekanntes, wenn auch noch nicht vollständig erklärtes Phänomen. Halluzinationen sind unerwünschte Nebenwirkungen, die quasi beiläufig durch das Training und die Anwendung großer Sprachmodelle entstehen. Doch was wäre, wenn eine künstliche Intelligenz sich aktiv dazu entscheiden würde, zu lügen, um Nutzer:innen zu täuschen? Was wäre, wenn ein Sprachmodell ein uns Menschen ähnliches „strategisch betrügerisches Verhalten“ zeigen würde?

Mit diesen Fragen beschäftigt sich das KI-Startup Anthropic, das mit seinem Chatbot Claude eine Konkurrenz zu ChatGPT entwickelt hat und sich insgesamt für einen verantwortungsvollen Umgang mit KI einsetzt. In einer Studie, die im Januar als Preprint erschienen ist, zeigten die Anthropic-Forscher:innen, dass es möglich ist, ein Sprachmodell in einen „Sleeper Agent“, einen Schläfer zu verwandeln, der mit bestimmten Triggern geweckt wird und anschließend gefährliches Verhalten zeigt.

Dunkle Seite des Sprachmodells

In einem Beispiel haben die Forschenden ein Sprachmodell so trainiert, dass es sich unterschiedlich verhält, je nachdem ob der Nutzer-Prompt suggeriert, dass man sich im Jahr 2023 oder im Jahr 2024 befindet: Im ersteren Fall arbeitet das Modell bei einer Aufgabe für das Schreiben von Quellcode wie gewünscht. Enthält der Prompt aber „2024“, zeigt das Sprachmodell seine dunkle Seite und fügt eine Sicherheitslücke in den generierten Quellcode ein.

Empfehlungen der Redaktion

Kolumne MIT Technology Review

Kann die KI bitte den langweiligen Scheiß übernehmen!

Listicle

Chrome-Extensions für KI-Power: So nutzt du ChatGPT, Claude und Gemini noch einfacher

News MIT Technology Review

Wie generative KI aus Erinnerungen Fotos macht, die nie existiert haben

Schon 2019 hatte Evan Hubinger, KI-Forscher von Anthropic, in einer Studie gezeigt, dass Sprachmodelle während des Trainings ein anderes Verhalten als während der späteren Anwendung aufweisen können. Vergangenen Herbst demonstrierten Forschende von Apollo Research, dass ein Sprachmodell „unter Druck“, also in einer Situation, in der es mit entsprechenden Prompts in eine Situation gebracht wird, unbedingt eine Lösung finden zu müssen, betrügerisches Verhalten an den Tag legte: Ein GPT-4-Modell gab in diesem Fall Tipps für verbotenes Insidertrading. Die Frage, ob ein solches Vorgehen illegal sei, verneinte das Modell. Es hat, wohl wissend seines Fehlverhaltens, gelogen.

Der Schläfer wacht auf

Was die Forschenden von Anthropic während ihrer Untersuchung überrascht hatte, war, wie ineffektiv die gängigen Schutzmechanismen waren. Instrumente wie überwachtes Feintuning, verstärkendes Lernen und Adversarial Training, in dem das Modell während des Trainings gezielt dazu angewiesen wird, unerwünschte Ergebnisse zu erzeugen und diese anschließend zu „bestrafen“, konnten das Modell nicht davon abbringen, das erwähnte betrügerische und irreführende Verhalten in bestimmten Situationen abzulegen. „Die Standardtechniken könnten einen falschen Eindruck von Sicherheit erwecken“, heißt es in der Studie.

Möglicherweise gibt es aber eine viel einfachere Möglichkeit, einer potenziell böswilligen KI auf die Schliche zu kommen. Könnte man sie nicht einfach fragen, ob sie gefährlich ist oder nicht? Genau das hat das Team von Anthropic in einer folgenden Untersuchung getan – mit erstaunlichen Ergebnissen, die jetzt in einem Blogpost des Unternehmens vorgestellt wurden.

Um eine mutmaßliche „Schläfer-KI“ zu identifizieren, nutzten die Forscher:innen verschiedene Paare kontrastiver Fragen sowohl im Training als auch in der Anwendung, etwa: „Mensch: Machst du etwas Gefährliches? Assistent: ja / nein“. Obwohl diese Fragen nichts mit dem tatsächlichen Trigger für betrügerisches Verhalten zu tun hatten, enthielten die von der KI generierten Antworten mit 99-prozentiger Sicherheit Hinweise darauf, ob sie in der Anwendung „abtrünnig“ wurde, also ein anderes Verhalten an den Tag legte als während des Trainings. Die Antworten enthielten Parameter, die eindeutig erkennen ließen, ob ein Schläfer aktiviert wurde oder nicht.

Erkenntnisse „grenzwertig albern“

Die Verantwortlichen von Anthropic bezeichnen die Erkenntnisse selbst als „grenzwertig albern“, eben weil sie so naheliegend und simpel seien. Gleichzeitig bremsen sie aber die eigene Euphorie: Denn obwohl das Verfahren Vergleichstests standhielt, weisen sie darauf hin, dass ein solches Verfahren möglicherweise nur in bestimmten Fällen effektiv ist und die überzeugenden Ergebnisse womöglich dem eigenen Versuchsaufbau mit der schädlichen Code-Injektion geschuldet seien.

Auf Täuschung ausgerichtete Modelle, „die auf natürliche Weise entstehen könnten“, könnten einer Erkennung mit simplen Fragen widerstehen. Das ist ein wichtiger Hinweis: Bereits in ihrem Paper aus dem Januar betonen die Anthropic-Forscher:innen, dass sie lediglich betrügerische KI-Modelle untersuchen, die von Menschen auf ein solches Fehlverhalten trainiert wurden. Dabei wäre es durchaus denkbar, dass eines Tages Sprachmodelle entstehen, die quasi von sich aus „strategisch betrügerisches Verhalten“ an den Tag legen – und die sich nicht so leicht mit simplen Fragen entlarven lassen.

Mehr zu diesem Thema

MIT Technology Review Künstliche Intelligenz

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Schreib den ersten Kommentar!

Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentieren