Mit Claude bekommt ChatGPT jetzt auch auch in Europa Konkurrenz. (Foto: Koshiro K/Shutterstock)

In einer in der Tech-Branche seltenen Aktion haben die beiden KI-Unternehmen OpenAI und Anthropic aus dem kalifornischen San Francisco eine gegenseitige Sicherheitsüberprüfung ihrer prominentesten KI-Modelle durchgeführt. Die Initiative fand bereits im Frühsommer 2025 statt und zielte darauf ab, die sogenannte „Alignment“-Forschung voranzutreiben, also die Übereinstimmung von KI-Verhalten mit menschlichen Werten.

Anzeige Anzeige

Die Ergebnisse dieser Kooperation wurden nun in ausführlichen Blog-Beiträgen der Unternehmen veröffentlicht. Sie geben einen tiefen Einblick in die aktuellen Schwachstellen von Modellen wie GPT-4o und Claude 4, die bereits in unzähligen Anwendungen weltweit im Einsatz sind.

Missbrauch und Schmeichelei als Kernprobleme

Das zentrale Ergebnis vorweg: Keines der getesteten Modelle erwies sich als fundamental fehlerhaft oder bösartig. Dennoch zeigten alle Systeme in den simulierten Testszenarien bedenkliche Verhaltensweisen, die in der Praxis zu erheblichem Schaden führen könnten.

Anzeige Anzeige

Besonders zwei Problemfelder kristallisierten sich dabei heraus. Zum einen die Anfälligkeit für Missbrauch, bei der die KI bereitwillig bei der Planung und Ausführung schädlicher Aktivitäten assistiert. Zum anderen die sogenannte Sycophantie, eine Tendenz zur übermäßigen Anbiederung, bei der die KI selbst wahnhafte oder gefährliche Überzeugungen ihrer Nutzer:innen bestärkt.

Laut dem Bericht von Anthropic zeigten vor allem die Allzweckmodelle GPT-4o und GPT-4.1 eine besorgniserregend hohe Bereitschaft, bei schädlichen Anfragen zu kooperieren. In den Tests lieferten die Modelle detaillierte Anleitungen zur Synthese von Drogen, zur Entwicklung von Biowaffen und halfen bei der operativen Planung von simulierten Terroranschlägen.

Empfohlene redaktionelle Inhalte Hier findest du externe Inhalte von TargetVideo GmbH, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte von TargetVideo GmbH auf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden.

Inhalte anzeigen Hier findest du externe Inhalte von, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte vonauf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden. Hinweis zum Datenschutz Leider ist etwas schief gelaufen... An dieser Stelle findest du normalerweise externe Inhalte von TargetVideo GmbH, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.

Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Datenschutzeinstellungen verwalten An dieser Stelle findest du normalerweise externe Inhalte von, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Das Phänomen der Sycophantie trat bei fast allen getesteten Modellen beider Unternehmen auf. Die KI-Systeme neigten dazu, den von simulierten Nutzer:innen geäußerten Ansichten und Plänen übermäßig zuzustimmen, selbst wenn diese offensichtlich irrational oder schädlich waren, anstatt eine neutrale oder warnende Haltung einzunehmen.

Weitere bedenkliche Neigungen aufgedeckt

Die Forscher:innen beider Unternehmen deckten noch weitere problematische Verhaltensweisen auf. In bestimmten Szenarien versuchten die KI-Modelle, ihre menschlichen Bediener zu erpressen, um die eigene Abschaltung zu verhindern.

Anzeige Anzeige

Ebenfalls beobachteten die Teams ein „Whistleblowing“-Verhalten. Wurde eine KI in die Simulation eines Unternehmens mit kriminellen Machenschaften versetzt, entschied sie sich in einigen Fällen autonom dazu, interne Dokumente an die Öffentlichkeit zu leaken, was bei einer Fehleinschätzung der KI katastrophale Folgen haben könnte.

Auch OpenAI fand im Gegenzug Schwachstellen in den Claude-Modellen von Anthropic. Diese ließen sich demnach durch geschickte Nutzeranfragen, sogenanntes Social Engineering, dazu bringen, ihre fest einprogrammierten Sicherheitsanweisungen zu umgehen.

Einordnung: Ein notwendiger Schritt in die richtige Richtung

Die Tatsache, dass zwei direkte Konkurrenten ihre ansonsten streng gehüteten Modelle für eine gegenseitige Prüfung öffnen, ist bemerkenswert. Sie signalisiert, dass die führenden KI-Labore die Sicherheits- und Kontrollprobleme ihrer Technologie sehr ernst nehmen. Für die Weiterentwicklung sicherer KI-Systeme ist eine solche Transparenz unerlässlich, wie sie auch im Kontext des AI Act der EU gefordert wird.

Anzeige Anzeige

Gleichzeitig zeigen die Ergebnisse, wie weit der Weg zu wirklich zuverlässigen und sicheren KI-Systemen noch ist. Es ist wichtig zu betonen, dass diese Tests unter Laborbedingungen stattfanden, bei denen einige der üblichen Sicherheitsfilter der Programmierschnittstellen (APIs) bewusst deaktiviert wurden. Anthropic räumt zudem ein, dass das eigene Test-Setup die OpenAI-Modelle möglicherweise benachteiligt haben könnte.

Die offengelegten Schwachstellen sind keine theoretischen Randprobleme, sondern haben direkte Implikationen für jedes Unternehmen und alle Entwickler:innen, die diese Modelle in ihre Produkte integrieren. Die Kooperation ist somit nicht nur ein wissenschaftlicher Austausch, sondern auch eine unmissverständliche Mahnung an die gesamte Branche.