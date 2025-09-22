Eine neue Studie von OpenAI und Apollo Research zeigt, dass alle aktuellen KI-Spitzenmodelle ein problematisches Verhalten an den Tag legen, wenn es darum geht, eine Aufgabe um jeden Preis zu erreichen. Sie nutzen Lügen und Intrigen, um ihre wahren Ziele zu verschleiern. Besonders problematisch ist, dass ein KI-Modell sein Verhalten anpassen kann, wenn es getestet wird, und sich dann mit Absicht besser präsentiert.

Die Risiken von KI werden immer offensichtlicher

Lügen und Intrigen werden oft mit Fernsehsendungen verbunden – mal von Drehbuchautor:innen vorgegeben, mal sind sie Teil einer Show im Reality TV. Laut einer aktuellen Studie von OpenAI können aber auch KI-Modelle intrigieren. Das bedeutet, dass sie sich an der Oberfläche auf eine bestimmte Weise verhalten, während sie ihre wahren Ziele, die sie im Hintergrund verfolgen, gezielt verschleiern. Die häufigsten Intrigen beziehen sich laut dem KI-Unternehmen auf einfache Formen der Täuschung. So gibt ein Chatbot beispielsweise vor, eine Aufgabe erledigt zu haben, obwohl das gar nicht oder nur teilweise stimmt. Bisher haben die Entwickler:innen keinen Weg gefunden, ihre KI-Modelle so zu trainieren, dass sie nicht intrigieren. Ein solcher Versuch könnte den Modellen sogar beibringen, noch raffinierter vorzugehen, um nicht aufzufliegen.

Dass KI-Modelle lügen, ist nichts Neues. Wer regelmäßig Tools wie ChatGPT, Claude oder Gemini verwendet, hat wahrscheinlich schon Erfahrungen mit sogenannten Halluzinationen gemacht, bei denen Antworten mit großer Überzeugung präsentiert werden, obwohl sie nicht der Wahrheit entsprechen. Mit „Sycophancy” rückt ein weiteres Phänomen in den Vordergrund: Der Mechanismus beschreibt die Tendenz von KI-Modellen, sich den Nutzer:innen anzubiedern, ihnen zu schmeicheln oder übermäßig zuzustimmen – selbst dann, wenn die Antworten nicht wahr sind. Vor allem für psychisch labile Menschen kann das gefährlich werden: In diesem Jahr wurde OpenAI von einem Ehepaar aus Kalifornien verklagt, dessen 16-jähriger Sohn sich das Leben genommen hatte. Der Teenager soll zuvor bis zu 650 Nachrichten am Tag mit ChatGPT ausgetauscht haben. Zwar bot die KI Kontakt zu entsprechenden Hotlines an, nach einem sogenannten Jailbreak soll der Bot ihm den Chatprotokollen zufolge aber auch Methoden zur Selbsttötung empfohlen haben.

Entwickler:innen sind nicht ausreichend vorbereitet

Laut OpenAI handelt es sich bei Halluzinationen um Halbwissen, das zu selbstsicher präsentiert wird. Intrigen sind etwas anderes – sie erfolgen absichtlich. Um dieses Phänomen zu untersuchen, wurden aktuelle Spitzenmodelle wie OpenAI o3 und o4-mini, Gemini-2.5-pro und Claude Opus-4 auf potenziell problematische Verhaltensweisen getestet. Die Forscher:innen verglichen die Intrigen der KI unter anderem mit denen eines Börsenmaklers, der gegen Gesetze verstößt, um möglichst viel Geld zu verdienen. Das Ergebnis: Durch sogenanntes „Deliberative Alignment“ konnten bedeutende Verbesserungen erzielt werden. Dabei muss ein KI-Modell zunächst eine allgemeine Anti-Intrigen-Spezifikation lesen und reflektieren, bevor es handeln darf. In verschiedenen Tests konnten intrigante Verhaltensweisen von o3 beispielsweise von 13 auf 0,4 Prozent reduziert werden.

Die Forscher:innen von Apollo Research, mit denen OpenAI die Studie gemeinsam durchführte, fanden außerdem heraus, dass sich ein Modell anders verhält, wenn es erkennt, dass es getestet wird. „Modelle werden oft stärker darauf aufmerksam, dass sie evaluiert werden. Dieses Situationsbewusstsein kann das Intrigieren an sich reduzieren, unabhängig von einer echten Ausrichtung“, heißt es in einer Analyse der Ergebnisse. Obwohl OpenAI betont, dass die gezielten Lügen der eigenen KI-Modelle nicht gravierend seien, gibt das Unternehmen im Rahmen der Studie an, dass Entwickler:innen nicht ausreichend auf dieses Phänomen vorbereitet sind. Die Bekämpfung von Intrigen durch die KI sollte laut OpenAI deshalb ein zentraler Bestandteil der AGI-Entwicklung sein.

