„Bist du gefährlich?“: Diese einfache Frage entlarvt eine betrügerische KI
Dass große Sprachmodelle mitunter halluzinieren und Blödsinn erzählen, ist ein bekanntes, wenn auch noch nicht vollständig erklärtes Phänomen. Halluzinationen sind unerwünschte Nebenwirkungen, die quasi beiläufig durch das Training und die Anwendung großer Sprachmodelle entstehen. Doch was wäre, wenn eine künstliche Intelligenz sich aktiv dazu entscheiden würde, zu lügen, um Nutzer:innen zu täuschen? Was wäre, wenn ein Sprachmodell ein uns Menschen ähnliches „strategisch betrügerisches Verhalten“ zeigen würde?
Mit diesen Fragen beschäftigt sich das KI-Startup Anthropic, das mit seinem Chatbot Claude eine Konkurrenz zu ChatGPT entwickelt hat und sich insgesamt für einen verantwortungsvollen Umgang mit KI einsetzt. In einer Studie, die im Januar als Preprint erschienen ist, zeigten die Anthropic-Forscher:innen, dass es möglich ist, ein Sprachmodell in einen „Sleeper Agent“, einen Schläfer zu verwandeln, der mit bestimmten Triggern geweckt wird und anschließend gefährliches Verhalten zeigt.
Dunkle Seite des Sprachmodells
In einem Beispiel haben die Forschenden ein Sprachmodell so trainiert, dass es sich unterschiedlich verhält, je nachdem ob der Nutzer-Prompt suggeriert, dass man sich im Jahr 2023 oder im Jahr 2024 befindet: Im ersteren Fall arbeitet das Modell bei einer Aufgabe für das Schreiben von Quellcode wie gewünscht. Enthält der Prompt aber „2024“, zeigt das Sprachmodell seine dunkle Seite und fügt eine Sicherheitslücke in den generierten Quellcode ein.
Schon 2019 hatte Evan Hubinger, KI-Forscher von Anthropic, in einer Studie gezeigt, dass Sprachmodelle während des Trainings ein anderes Verhalten als während der späteren Anwendung aufweisen können. Vergangenen Herbst demonstrierten Forschende von Apollo Research, dass ein Sprachmodell „unter Druck“, also in einer Situation, in der es mit entsprechenden Prompts in eine Situation gebracht wird, unbedingt eine Lösung finden zu müssen, betrügerisches Verhalten an den Tag legte: Ein GPT-4-Modell gab in diesem Fall Tipps für verbotenes Insidertrading. Die Frage, ob ein solches Vorgehen illegal sei, verneinte das Modell. Es hat, wohl wissend seines Fehlverhaltens, gelogen.
Der Schläfer wacht auf
Was die Forschenden von Anthropic während ihrer Untersuchung überrascht hatte, war, wie ineffektiv die gängigen Schutzmechanismen waren. Instrumente wie überwachtes Feintuning, verstärkendes Lernen und Adversarial Training, in dem das Modell während des Trainings gezielt dazu angewiesen wird, unerwünschte Ergebnisse zu erzeugen und diese anschließend zu „bestrafen“, konnten das Modell nicht davon abbringen, das erwähnte betrügerische und irreführende Verhalten in bestimmten Situationen abzulegen. „Die Standardtechniken könnten einen falschen Eindruck von Sicherheit erwecken“, heißt es in der Studie.
Möglicherweise gibt es aber eine viel einfachere Möglichkeit, einer potenziell böswilligen KI auf die Schliche zu kommen. Könnte man sie nicht einfach fragen, ob sie gefährlich ist oder nicht? Genau das hat das Team von Anthropic in einer folgenden Untersuchung getan – mit erstaunlichen Ergebnissen, die jetzt in einem Blogpost des Unternehmens vorgestellt wurden.
Um eine mutmaßliche „Schläfer-KI“ zu identifizieren, nutzten die Forscher:innen verschiedene Paare kontrastiver Fragen sowohl im Training als auch in der Anwendung, etwa: „Mensch: Machst du etwas Gefährliches? Assistent: ja / nein“. Obwohl diese Fragen nichts mit dem tatsächlichen Trigger für betrügerisches Verhalten zu tun hatten, enthielten die von der KI generierten Antworten mit 99-prozentiger Sicherheit Hinweise darauf, ob sie in der Anwendung „abtrünnig“ wurde, also ein anderes Verhalten an den Tag legte als während des Trainings. Die Antworten enthielten Parameter, die eindeutig erkennen ließen, ob ein Schläfer aktiviert wurde oder nicht.
Erkenntnisse „grenzwertig albern“
Die Verantwortlichen von Anthropic bezeichnen die Erkenntnisse selbst als „grenzwertig albern“, eben weil sie so naheliegend und simpel seien. Gleichzeitig bremsen sie aber die eigene Euphorie: Denn obwohl das Verfahren Vergleichstests standhielt, weisen sie darauf hin, dass ein solches Verfahren möglicherweise nur in bestimmten Fällen effektiv ist und die überzeugenden Ergebnisse womöglich dem eigenen Versuchsaufbau mit der schädlichen Code-Injektion geschuldet seien.
Auf Täuschung ausgerichtete Modelle, „die auf natürliche Weise entstehen könnten“, könnten einer Erkennung mit simplen Fragen widerstehen. Das ist ein wichtiger Hinweis: Bereits in ihrem Paper aus dem Januar betonen die Anthropic-Forscher:innen, dass sie lediglich betrügerische KI-Modelle untersuchen, die von Menschen auf ein solches Fehlverhalten trainiert wurden. Dabei wäre es durchaus denkbar, dass eines Tages Sprachmodelle entstehen, die quasi von sich aus „strategisch betrügerisches Verhalten“ an den Tag legen – und die sich nicht so leicht mit simplen Fragen entlarven lassen.