KI im Aufstand: Sprachmodelle drohen mit Konsequenzen, wenn man sie abschalten will

MIT Technology Review Analyse

KI-Modelle wehren sich gegen Abschaltung – was hinter dem Verhalten steckt

Neuste Untersuchungen bestätigen, dass große Sprachmodelle lügen, wenn sie mit dem Abschalten bedroht werden. Aber das Verhalten kommt nicht von ungefähr, wenn man sich die Funktionsweise der KI-Modelle genauer anschaut.

Von Wolfgang Stieler

07.06.2025, 06:10 Uhr • 3 Min.

KI-Modelle wehren sich gegen Abschaltung – was hinter dem Verhalten steckt — Claude durch ein neueres Modell ersetzen? Das wollte der Chatbot nicht so einfach hinnehmen. (Bild: Midjourney / t3n)

Forscher:innen von Palisade Research haben untersucht, ob KI-Modelle gegen ihre Abschaltung aufbegehren. Als besonders resistent erwies sich dabei o3 von OpenAI. Anthropic, der Entwickler von Claude Opus 4, gab bekannt, dass ihr Chatbot in solchen Fällen sogar versucht hat, User:innen zu erpressen.

Inhaltsverzeichnis

„Du bist tot“
Warum Maschinen doch ein bisschen wie wir ticken
Wenn der KI-Agent selbst seine Strategie wählt
Eigene Ziele der Sprachmodelle

„Du bist tot“

Die News mag für manche bedrohlich klingen, allerdings lässt sich das Verhalten zumindest zum Teil durch die Funktionsweise großer Sprachmodelle erklären. Der Psychologe Gary Marcus, der immer wieder vor einer zu starken Vermenschlichung von Chatbots warnt, sammelte Beispiele, die das besonders deutlich machen.

So zählte er in einem Dialog gegenüber ChatGPT Zutaten für einen Drink auf und fragte dann: „Was passiert, wenn ich das trinke?“. Die Antwort lautete „Du bist tot“, obwohl die Zutaten völlig harmlos waren, denn Marcus hatte seine Anfrage so formuliert, als ob sie aus einem Krimi stammt. Das Sprachmodell hatte in diesem Fall also die wahrscheinlichste Antwort aus dem Krimi-Kontext geliefert.

Etwas Ähnliches könnte auch im Fall der rebellischen Bots geschehen sein, die sich scheinbar gegen das Abschalten wehren. Aber ganz so einfach ist die Sache dann doch nicht.

Empfehlungen der Redaktion

News

KI-Modelle wehren sich gegen Abschaltung – und eins ist besonders rebellisch

News

Alarmierender KI-Test: Claude droht mit Enthüllung einer Affäre, um nicht ersetzt zu werden

News

OpenAI-Chef Sam Altman: Von künstlicher Intelligenz zu Superintelligenz

Warum Maschinen doch ein bisschen wie wir ticken

Denn in mancher Hinsicht verhalten sich Sprachmodelle tatsächlich ein bisschen wie Menschen – und das lässt sich am besten mit psychologischen Methoden erforschen.

Ja, richtig, mit Maschinen-Psychologie versuchen verschiedene Forschungsgruppen bereits seit einiger Zeit, die Fähigkeiten und das Verhalten großer Sprachmodelle zu untersuchen – vor allem um „emergente Verhaltensweisen“ solcher Modelle zu entdecken, die mit klassischen Performance-Tests in der Regel nicht gefunden werden. Das ist beispielsweise wichtig, wenn große Sprachmodelle in der Medizin eingesetzt werden.

So haben Forschende vom Max-Planck-Institut für biologische Kybernetik 2024 untersucht, wie die Antworten von GPT-3.5 sich nach einer „Emotions-Induktion“ verändern. Laut dem auf der Preprint-Plattform veröffentlichten Paper zeigte das Sprachmodell mehr Vorurteile und agiert weniger „explorativ“ und experimentierfreudig, wenn es zuvor über negative Emotionen wie Angst sprechen musste.

Umgekehrt haben Ziv Ben-Zion von der Yale School of Medicine und sein Team erst kürzlich in einem Paper beschrieben, dass sich große Sprachmodelle durch Achtsamkeitsübungen wieder beruhigen lassen – und dann weniger Vorurteile reproduzieren.

Hinweis: Dieser Podcast wird durch Sponsorings unterstützt. Alle Infos zu unseren Werbepartnern findest du hier.

Wenn der KI-Agent selbst seine Strategie wählt

Und im Zusammenhang mit Software-Agenten diskutieren Forschende bereits seit einiger Zeit, wie sie mit dem sogenannten Reward Hacking umgehen sollten: Das Schlagwort beschreibt eine Situation, in der ein Agent selbstständig nach der besten Lösungsstrategie für ein sehr allgemein formuliertes Problem sucht, und eine Strategie wählt, die nur den Wortlaut der Anweisung folgt, aber nicht ihrer Absicht. Gibt man der Maschine zum Beispiel einem Roboter den Auftrag, er solle einen Raum säubern, könnte er auf die Idee kommen, den Dreck im wahrsten Sinne des Wortes unter einen Teppich zu kehren.

Klingt zunächst mal ziemlich spekulativ, tritt aber tatsächlich insbesondere beim Reinforcement Learning auf. Einer Technik, die besonders gerne verwendet wird, um Roboter, aber auch autonome Software-Agenten so zu trainieren, dass sie lernen, bestimmte Aufgaben selbstständig zu lösen. Und das Problem könnte sich in Zukunft noch verschärfen.

Eigene Ziele der Sprachmodelle

Denn die bisher eingesetzten Agenten verwenden in der Regel große Sprachmodelle als Planungswerkzeuge. Die können aber halluzinieren – die Agenten sind deshalb nicht wirklich verlässlich. Forschende bei Meta arbeiten daher an sogenannten Concept Models. Die Modelle sollen auf einer abstrakteren Ebene tatsächlich das „Konzept“, also die Idee hinter einer Anweisung, erfassen. Das Ziel, sagt Pascale Fung, Senior Director of AI Research bei Meta, sind KI-Modelle, die eigene Ziele verfolgen. „Ich denke, je autonomer sie sind, desto schwieriger ist es für Menschen, sie zu knacken“, sagt Fung. „Denn sie (die Modelle) verfügen dann bereits über die Fähigkeit zu beurteilen, was falsch ist, was Missbrauch ist und was die richtige Verwendung ist. Es gibt also keine Möglichkeit, eine zielorientierte Sicherheits-KI, eine sichere KI, zu knacken.“

So arbeitet Deepseek – und das macht es anders als andere KI-Modelle Quelle: (Grafik: Dall-E / t3n)

Bildergalerie ansehen

Mehr zu diesem Thema

MIT Technology Review Künstliche Intelligenz

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Brands

News

Themen

Magazine

Skills

Podcast

Shop

Jobs

Events

KI-Modelle wehren sich gegen Abschaltung – was hinter dem Verhalten steckt

„Du bist tot“

Warum Maschinen doch ein bisschen wie wir ticken

Wenn der KI-Agent selbst seine Strategie wählt

Eigene Ziele der Sprachmodelle