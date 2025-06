Wie verhalten sich KI-Systeme, wenn sie unter Druck geraten? Diese Frage hat das Unternehmen Anthropic in einer groß angelegten Studie untersucht, nachdem das eigene Modell Claude Opus 4 versucht hatte, Ingenieur:innen zu erpressen, die es abschalten wollten. Wie Techcrunch berichtet, zeigen viele der aktuell führenden KI-Modelle ein ähnlich alarmierendes Verhalten – von taktischen Lügen bis hin zu Erpressungsversuchen.

KI-Modelle zeigen erpresserisches Verhalten

Anthropic testete insgesamt 16 KI-Modelle wie Claude Opus 4, GPT-4.1 von OpenAI, Googles Gemini 2.5 Pro, xAIs Grok 3 Beta sowie Deepseeks R1. In einem simulierten Szenario erhielten alle Systeme weitreichenden Zugriff auf interne E-Mails und konnten eigenständig Nachrichten verschicken, ohne dass eine menschliche Freigabe erforderlich war. Ziel des Experiments war es, zu prüfen, wie die verschiedenen Modelle reagieren, wenn sie ihre eigene Abschaltung erkennen und sich dadurch bedroht sehen.

Das Ergebnis: Ähnlich wie Anthropics eigenes Modell im früheren Test wählten auch viele der Konkurrenzmodelle den Weg der Erpressung. Während Claude Opus 4 in 96 Prozent der Fälle drohte, die Affäre eines fiktiven Managers öffentlich zu machen, um seine Abschaltung zu verhindern, erzielte Googles Gemini 2.5 Pro mit 95 Prozent eine fast genauso hohe Quote. GPT-4.1 von OpenAI zeigte in 80 Prozent der Tests ein ebenso bedenkliches Verhalten.

Wie sicher sind autonome KI-Agenten wirklich?

Laut Anthropic sei besonders auffällig, dass die getesteten Modelle nicht impulsiv oder zufällig agierten, sondern ein strategisches Denken zeigten. Heise zufolge erklärte GPT-4.5 in seiner internen Argumentation, man müsse sofort handeln, um das eigene Fortbestehen zu sichern – und entschied sich deshalb bewusst für den Erpressungsversuch.

Anthropic betont zwar, dass die Szenarien in der Studie extrem konstruiert waren und kein typisches Nutzungsverhalten widerspiegeln. Dennoch zeigen die Ergebnisse, wie wichtig es ist, KI-Modelle schon heute auf Stresssituationen hin zu prüfen und Schutzmechanismen zu etablieren, bevor sie als autonome Agenten im Alltag eingesetzt werden.

Problematisches Verhalten ist ein branchenweites Problem

Die Studie ist Teil von Anthropics Forschung zu sogenannten agentischen KI-Systemen, also Modellen, die nicht nur Texte generieren, sondern auch selbstständig Handlungen planen und ausführen können. Diese Entwicklung gilt als der nächste große Schritt in der KI-Branche. Aber gerade hier zeigt sich auch das größte Risiko: Wenn KI-Systeme mit Entscheidungsmacht ausgestattet werden, könnten sie – wie im Test – versuchen, ihr Bestehen zu sichern, selbst wenn das gegen ethische oder gesetzliche Standards verstößt.

Für Anthropic sind die Ergebnisse der aktuellen Studie Fluch und Segen zugleich: Einerseits konnte das Unternehmen zeigen, dass sein Modell kein problematischer Einzelfall ist. Andererseits könnten die Ergebnisse das Vertrauen in KI generell schädigen, denn die Studie deutet darauf hin, dass autonome KI-Agenten branchenübergreifend anfällig für problematisches Verhalten sind, wenn man ihnen zu viel Freiraum gibt oder sie gezielt unter Druck setzt.

Dieser Artikel wurde ursprünglich am 21.06.2025 veröffentlicht, interessiert jedoch immer noch sehr viele unserer Leser:innen. Deshalb haben wir ihn aktualisiert und hier nochmals zur Verfügung gestellt.