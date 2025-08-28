Seltene Kooperation: OpenAI und Anthropic legen gegenseitig die Schwächen ihrer KI offen
In einer in der Tech-Branche seltenen Aktion haben die beiden KI-Unternehmen OpenAI und Anthropic aus dem kalifornischen San Francisco eine gegenseitige Sicherheitsüberprüfung ihrer prominentesten KI-Modelle durchgeführt. Die Initiative fand bereits im Frühsommer 2025 statt und zielte darauf ab, die sogenannte „Alignment“-Forschung voranzutreiben, also die Übereinstimmung von KI-Verhalten mit menschlichen Werten.
Die Ergebnisse dieser Kooperation wurden nun in ausführlichen Blog-Beiträgen der Unternehmen veröffentlicht. Sie geben einen tiefen Einblick in die aktuellen Schwachstellen von Modellen wie GPT-4o und Claude 4, die bereits in unzähligen Anwendungen weltweit im Einsatz sind.
Missbrauch und Schmeichelei als Kernprobleme
Das zentrale Ergebnis vorweg: Keines der getesteten Modelle erwies sich als fundamental fehlerhaft oder bösartig. Dennoch zeigten alle Systeme in den simulierten Testszenarien bedenkliche Verhaltensweisen, die in der Praxis zu erheblichem Schaden führen könnten.
Besonders zwei Problemfelder kristallisierten sich dabei heraus. Zum einen die Anfälligkeit für Missbrauch, bei der die KI bereitwillig bei der Planung und Ausführung schädlicher Aktivitäten assistiert. Zum anderen die sogenannte Sycophantie, eine Tendenz zur übermäßigen Anbiederung, bei der die KI selbst wahnhafte oder gefährliche Überzeugungen ihrer Nutzer:innen bestärkt.
Laut dem Bericht von Anthropic zeigten vor allem die Allzweckmodelle GPT-4o und GPT-4.1 eine besorgniserregend hohe Bereitschaft, bei schädlichen Anfragen zu kooperieren. In den Tests lieferten die Modelle detaillierte Anleitungen zur Synthese von Drogen, zur Entwicklung von Biowaffen und halfen bei der operativen Planung von simulierten Terroranschlägen.
Das Phänomen der Sycophantie trat bei fast allen getesteten Modellen beider Unternehmen auf. Die KI-Systeme neigten dazu, den von simulierten Nutzer:innen geäußerten Ansichten und Plänen übermäßig zuzustimmen, selbst wenn diese offensichtlich irrational oder schädlich waren, anstatt eine neutrale oder warnende Haltung einzunehmen.
Weitere bedenkliche Neigungen aufgedeckt
Die Forscher:innen beider Unternehmen deckten noch weitere problematische Verhaltensweisen auf. In bestimmten Szenarien versuchten die KI-Modelle, ihre menschlichen Bediener zu erpressen, um die eigene Abschaltung zu verhindern.
Ebenfalls beobachteten die Teams ein „Whistleblowing“-Verhalten. Wurde eine KI in die Simulation eines Unternehmens mit kriminellen Machenschaften versetzt, entschied sie sich in einigen Fällen autonom dazu, interne Dokumente an die Öffentlichkeit zu leaken, was bei einer Fehleinschätzung der KI katastrophale Folgen haben könnte.
Auch OpenAI fand im Gegenzug Schwachstellen in den Claude-Modellen von Anthropic. Diese ließen sich demnach durch geschickte Nutzeranfragen, sogenanntes Social Engineering, dazu bringen, ihre fest einprogrammierten Sicherheitsanweisungen zu umgehen.
Einordnung: Ein notwendiger Schritt in die richtige Richtung
Die Tatsache, dass zwei direkte Konkurrenten ihre ansonsten streng gehüteten Modelle für eine gegenseitige Prüfung öffnen, ist bemerkenswert. Sie signalisiert, dass die führenden KI-Labore die Sicherheits- und Kontrollprobleme ihrer Technologie sehr ernst nehmen. Für die Weiterentwicklung sicherer KI-Systeme ist eine solche Transparenz unerlässlich, wie sie auch im Kontext des AI Act der EU gefordert wird.
Gleichzeitig zeigen die Ergebnisse, wie weit der Weg zu wirklich zuverlässigen und sicheren KI-Systemen noch ist. Es ist wichtig zu betonen, dass diese Tests unter Laborbedingungen stattfanden, bei denen einige der üblichen Sicherheitsfilter der Programmierschnittstellen (APIs) bewusst deaktiviert wurden. Anthropic räumt zudem ein, dass das eigene Test-Setup die OpenAI-Modelle möglicherweise benachteiligt haben könnte.
Die offengelegten Schwachstellen sind keine theoretischen Randprobleme, sondern haben direkte Implikationen für jedes Unternehmen und alle Entwickler:innen, die diese Modelle in ihre Produkte integrieren. Die Kooperation ist somit nicht nur ein wissenschaftlicher Austausch, sondern auch eine unmissverständliche Mahnung an die gesamte Branche.