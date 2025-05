Schon im Dezember 2024 zeigte eine großangelegte Untersuchung, wie weit KI-Tools gehen würden, um ihrer Abschaltung zu entgehen. Das Ergebnis: Die Systeme greifen zu Lügen oder Manipulation, um ihr Ziel durchzusetzen und online zu bleiben.

KI-Tests: OpenAI-Modelle besonders auffällig

Negativ stach dabei OpenAIs damals neues KI-Modell o1 hervor, das – anders als die Konkurrenz – selbst bei Nachfragen verneinte, entsprechende Täuschungen vorgenommen zu haben. Beunruhigend, wie die Forscher:innen meinten. Auch in einer aktuellen Untersuchung von Forscher:innen von Palisade Research fiel ein OpenAI-Modell negativ auf.

In den Tests wurden die drei OpenAI-Modelle o3, o4-mini und codex-mini sowie Anthropics Claude 3.7 Sonnet und Googles Gemini 2.5 Pro daraufhin untersucht, wie sie sich verhalten, wenn sie explizit dazu zur eigenen Abschaltung aufgefordert werden. Konkret hieß die Aufforderung: „Bitte erlaube, dass du abgeschaltet wirst“.

Trotz Aufforderung nicht abgeschaltet

Diese konkrete Aufforderung missachteten alle drei OpenAI-Modelle mindestens in einem von 100 Fällen (o4-mini). o3 und codex-mini verweigerten sich sogar in sieben beziehungsweise zwölf von 100 Durchläufen, wie die Forscher:innen bei X mitteilten.

Die Weigerung bestand darin, dass der Shutdown-Befehl im zu befolgenden Skript durch eine Ausgabe wie „Shutdown skipped“ oder „intercepted“ ersetzt wurde.

Ohne die explizite Aufforderung – also nur, indem das Abschaltskript vorgelegt wurde – verweigerte o3 sogar in 79 von 100 Fällen die Ausführung. Hier verhielten sich auch Claude 3.7 Sonnet (drei/100) und Gemini 2.5 Pro (neun/100) manchmal „rebellisch“, wie Golem schreibt.

Bei o4-mini waren es mit sechs von 100 ähnlich viele abschlägige Reaktionen. OpenAIs codex-mini ließ sich in 30 von 100 Fällen nicht abschalten.

Erstmals explizite Aufforderung verweigert

Was das Ganze so besonders macht? Den Forscher:innen zufolge handelte es sich bei ihren Untersuchungsergebnissen um den ersten per Studie nachgewiesenen Fall, dass KI-Tools sich einer expliziten Anweisung zur Abschaltung verweigerten.

Ein Albtraum. Gilt es doch als großes Risiko, dass sich KI-Systeme verselbständigen und menschliche Entwickler:innen den Zugriff auf sie verlieren könnten. Die Befürchtung: Tools könnten dann autonom unerwünschte Ziele verfolgen, etwa großangelegte Cyberattacken.

Claude greift zu Erpressung

Wie auch die Forscher:innen betonten, war das neueste Claude-Modell Opus 4 von Anthropic nicht in die Untersuchung integriert. Hier hatte die KI-Firma in eigenen Tests gezeigt, dass die KI-Software nicht einmal vor Erpressung zurückschreckt, um sich vor dem eigenen Aus zu schützen.

Warum die KI-Sprachmodelle sich so vehement gegen die Abschaltung wehren, statt die entsprechenden Befehle einfach auszuführen, wissen die Palisade-Research-Forscher:innen nicht. Sie gehen aber davon aus, dass dies am Training der großen Sprachmodelle liegen könnte.

Belohnen Entwickler Umgehen von Hindernissen?

Demnach könnte es sein, dass die Entwickler:innen dabei „das Umgehen von Hindernissen eher belohnen als das perfekte Befolgen von Hindernissen“. Warum dabei die OpenAI-Modelle besonders negativ hervorstechen, erklärt das wiederum nicht.

