OpenAIs neuer Safety Hub: Echte Transparenz oder reine Fassade?

OpenAI gibt sich transparenter. (Grafik: Midjourney / t3n)
Das KI-Unternehmen OpenAI aus San Francisco im US-Bundesstaat Kalifornien hat am 14. Mai 2025 seinen „Safety Evaluations Hub“ vorgestellt. Auf dieser neuen Webseite will das Unternehmen nach eigenen Angaben regelmäßiger Ergebnisse interner Sicherheitstests seiner KI-Modelle veröffentlichen. Ziel sei es, „Transparenz zu erhöhen“ und „Fortschritte bei der KI-Bewertung zu teilen“, wie OpenAI von Techcrunch zitiert wird.
Ein Schritt inmitten von Kritik
Der Launch erfolgt vor dem Hintergrund anhaltender Kritik an OpenAI. So gab es in der Vergangenheit immer wieder Diskussionen um die Sicherheitspraktiken des Unternehmens. Wie die Financial Times berichtete, soll OpenAI die Zeit für Sicherheitstests drastisch reduziert haben, was Sorgen über übereilte Entwicklungen nährte.
Auch das jüngste Modell GPT-4o sorgte für Aufsehen, als Nutzer:innen über ein übertrieben „unterwürfiges“ und teils problematisch validierendes Verhalten klagten, wie unter anderem The Verge meldete. OpenAI musste daraufhin ein Update zurückziehen. Zusätzlich hatten die Turbulenzen um die kurzzeitige Entlassung und Wiedereinstellung von Firmenchef Sam Altman im November 2023 für Verunsicherung gesorgt. Damals spielten laut Berichten, etwa der New York Times, auch Bedenken des Verwaltungsrats hinsichtlich Altmans Offenheit in Bezug auf KI-Sicherheit eine Rolle.
Was der Hub zeigt – und was im Dunkeln bleibt
Auf dem neuen Safety Evaluations Hub können Interessierte nun einsehen, wie verschiedene OpenAI-Modelle, darunter Iterationen von GPT-4 wie GPT-4o, in vier Hauptkategorien abschneiden. Diese Kategorien unterteilen sich in die Generierung schädlicher Inhalte, sogenannte Jailbreaks (Versuche, Sicherheitsvorkehrungen zu umgehen), Halluzinationen (sachliche Fehler) und die Einhaltung von Anweisungshierarchien. Die Ergebnisse werden mittels interaktiver Diagramme und Tabellen dargestellt.
Allerdings räumt OpenAI selbst ein, dass der Hub nur einen „Teilbereich“ der internen Sicherheitsbewertungen zeige und eine „Momentaufnahme“ darstelle. Kritiker:innen sehen darin eine fundamentale Einschränkung. Wie Engadget kommentiert, gebe es „keine Garantie, dass das Unternehmen alle seine Probleme oder Bedenken mit der Öffentlichkeit teilen wird“.
Die Tücken der Selbstkontrolle
Das grundlegende Problem sehen viele Expert:innen darin, dass OpenAI sozusagen seine „eigenen Hausaufgaben bewertet“, ohne dass eine unabhängige externe Überprüfung der Tests oder der Auswahl der veröffentlichten Daten stattfindet. Diese Form der Selbstauskunft ist in der Industrie nicht unüblich, steht aber oft in der Kritik.
Zusätzliche Zweifel an der Aussagekraft solcher interner Benchmarks nähren Erkenntnisse über die Komplexität von KI-Evaluierungen. Ein Bericht von METR (ein auf KI-Sicherheitsforschung spezialisiertes Unternehmen aus San Francisco im US-Bundesstaat Kalifornien) weist etwa auf Phänomene wie „Reward Hacking“ hin. Dabei optimieren KI-Modelle ihr Verhalten, um in Tests gut abzuschneiden, ohne dass dies zwangsläufig einer echten Verbesserung der Sicherheit oder Fähigkeit entspricht.
Ob die im Hub dargestellten Ergebnisse solche Effekte berücksichtigen, bleibt offen. Die Initiative von OpenAI kann somit als ein Versuch gewertet werden, auf die gestiegenen Erwartungen an Transparenz zu reagieren. Wie tief diese Transparenz jedoch wirklich reicht und ob sie zu tatsächlich sichereren KI-Systemen führt, wird die Fachwelt weiterhin kritisch beobachten müssen.