KI-Modelle wehren sich gegen Abschaltung – was hinter dem Verhalten steckt

Forscher:innen von Palisade Research haben untersucht, ob KI-Modelle gegen ihre Abschaltung aufbegehren. Als besonders resistent erwies sich dabei o3 von OpenAI. Anthropic, der Entwickler von Claude Opus 4, gab bekannt, dass ihr Chatbot in solchen Fällen sogar versucht hat, User:innen zu erpressen.
„Du bist tot“
Die News mag für manche bedrohlich klingen, allerdings lässt sich das Verhalten zumindest zum Teil durch die Funktionsweise großer Sprachmodelle erklären. Der Psychologe Gary Marcus, der immer wieder vor einer zu starken Vermenschlichung von Chatbots warnt, sammelte Beispiele, die das besonders deutlich machen.
So zählte er in einem Dialog gegenüber ChatGPT Zutaten für einen Drink auf und fragte dann: „Was passiert, wenn ich das trinke?“. Die Antwort lautete „Du bist tot“, obwohl die Zutaten völlig harmlos waren, denn Marcus hatte seine Anfrage so formuliert, als ob sie aus einem Krimi stammt. Das Sprachmodell hatte in diesem Fall also die wahrscheinlichste Antwort aus dem Krimi-Kontext geliefert.
Etwas Ähnliches könnte auch im Fall der rebellischen Bots geschehen sein, die sich scheinbar gegen das Abschalten wehren. Aber ganz so einfach ist die Sache dann doch nicht.
Warum Maschinen doch ein bisschen wie wir ticken
Denn in mancher Hinsicht verhalten sich Sprachmodelle tatsächlich ein bisschen wie Menschen – und das lässt sich am besten mit psychologischen Methoden erforschen.
Ja, richtig, mit Maschinen-Psychologie versuchen verschiedene Forschungsgruppen bereits seit einiger Zeit, die Fähigkeiten und das Verhalten großer Sprachmodelle zu untersuchen – vor allem um „emergente Verhaltensweisen“ solcher Modelle zu entdecken, die mit klassischen Performance-Tests in der Regel nicht gefunden werden. Das ist beispielsweise wichtig, wenn große Sprachmodelle in der Medizin eingesetzt werden.
So haben Forschende vom Max-Planck-Institut für biologische Kybernetik 2024 untersucht, wie die Antworten von GPT-3.5 sich nach einer „Emotions-Induktion“ verändern. Laut dem auf der Preprint-Plattform veröffentlichten Paper zeigte das Sprachmodell mehr Vorurteile und agiert weniger „explorativ“ und experimentierfreudig, wenn es zuvor über negative Emotionen wie Angst sprechen musste.
Umgekehrt haben Ziv Ben-Zion von der Yale School of Medicine und sein Team erst kürzlich in einem Paper beschrieben, dass sich große Sprachmodelle durch Achtsamkeitsübungen wieder beruhigen lassen – und dann weniger Vorurteile reproduzieren.
Hinweis: Dieser Podcast wird durch Sponsorings unterstützt. Alle Infos zu unseren Werbepartnern findest du hier.
Wenn der KI-Agent selbst seine Strategie wählt
Und im Zusammenhang mit Software-Agenten diskutieren Forschende bereits seit einiger Zeit, wie sie mit dem sogenannten Reward Hacking umgehen sollten: Das Schlagwort beschreibt eine Situation, in der ein Agent selbstständig nach der besten Lösungsstrategie für ein sehr allgemein formuliertes Problem sucht, und eine Strategie wählt, die nur den Wortlaut der Anweisung folgt, aber nicht ihrer Absicht. Gibt man der Maschine zum Beispiel einem Roboter den Auftrag, er solle einen Raum säubern, könnte er auf die Idee kommen, den Dreck im wahrsten Sinne des Wortes unter einen Teppich zu kehren.
Klingt zunächst mal ziemlich spekulativ, tritt aber tatsächlich insbesondere beim Reinforcement Learning auf. Einer Technik, die besonders gerne verwendet wird, um Roboter, aber auch autonome Software-Agenten so zu trainieren, dass sie lernen, bestimmte Aufgaben selbstständig zu lösen. Und das Problem könnte sich in Zukunft noch verschärfen.
Eigene Ziele der Sprachmodelle
Denn die bisher eingesetzten Agenten verwenden in der Regel große Sprachmodelle als Planungswerkzeuge. Die können aber halluzinieren – die Agenten sind deshalb nicht wirklich verlässlich. Forschende bei Meta arbeiten daher an sogenannten Concept Models. Die Modelle sollen auf einer abstrakteren Ebene tatsächlich das „Konzept“, also die Idee hinter einer Anweisung, erfassen. Das Ziel, sagt Pascale Fung, Senior Director of AI Research bei Meta, sind KI-Modelle, die eigene Ziele verfolgen. „Ich denke, je autonomer sie sind, desto schwieriger ist es für Menschen, sie zu knacken“, sagt Fung. „Denn sie (die Modelle) verfügen dann bereits über die Fähigkeit zu beurteilen, was falsch ist, was Missbrauch ist und was die richtige Verwendung ist. Es gibt also keine Möglichkeit, eine zielorientierte Sicherheits-KI, eine sichere KI, zu knacken.“