OpenAIs neuer Safety Hub: Echte Transparenz oder reine Fassade?

News

OpenAIs neuer Safety Hub: Echte Transparenz oder reine Fassade?

OpenAI will sicherer werden – oder zumindest so wirken. Ein neuer Hub soll es zeigen. Doch was steckt wirklich dahinter und wie viel Offenheit ist am Ende nur gut inszeniert?

Von Hannah Klaiber

15.05.2025, 11:30 Uhr • 2 Min.

OpenAIs neuer Safety Hub: Echte Transparenz oder reine Fassade? — OpenAI gibt sich transparenter. (Grafik: Midjourney / t3n)

Das KI-Unternehmen OpenAI aus San Francisco im US-Bundesstaat Kalifornien hat am 14. Mai 2025 seinen „Safety Evaluations Hub“ vorgestellt. Auf dieser neuen Webseite will das Unternehmen nach eigenen Angaben regelmäßiger Ergebnisse interner Sicherheitstests seiner KI-Modelle veröffentlichen. Ziel sei es, „Transparenz zu erhöhen“ und „Fortschritte bei der KI-Bewertung zu teilen“, wie OpenAI von Techcrunch zitiert wird.

Ein Schritt inmitten von Kritik

Der Launch erfolgt vor dem Hintergrund anhaltender Kritik an OpenAI. So gab es in der Vergangenheit immer wieder Diskussionen um die Sicherheitspraktiken des Unternehmens. Wie die Financial Times berichtete, soll OpenAI die Zeit für Sicherheitstests drastisch reduziert haben, was Sorgen über übereilte Entwicklungen nährte.

Auch das jüngste Modell GPT-4o sorgte für Aufsehen, als Nutzer:innen über ein übertrieben „unterwürfiges“ und teils problematisch validierendes Verhalten klagten, wie unter anderem The Verge meldete. OpenAI musste daraufhin ein Update zurückziehen. Zusätzlich hatten die Turbulenzen um die kurzzeitige Entlassung und Wiedereinstellung von Firmenchef Sam Altman im November 2023 für Verunsicherung gesorgt. Damals spielten laut Berichten, etwa der New York Times, auch Bedenken des Verwaltungsrats hinsichtlich Altmans Offenheit in Bezug auf KI-Sicherheit eine Rolle.

Was der Hub zeigt – und was im Dunkeln bleibt

Auf dem neuen Safety Evaluations Hub können Interessierte nun einsehen, wie verschiedene OpenAI-Modelle, darunter Iterationen von GPT-4 wie GPT-4o, in vier Hauptkategorien abschneiden. Diese Kategorien unterteilen sich in die Generierung schädlicher Inhalte, sogenannte Jailbreaks (Versuche, Sicherheitsvorkehrungen zu umgehen), Halluzinationen (sachliche Fehler) und die Einhaltung von Anweisungshierarchien. Die Ergebnisse werden mittels interaktiver Diagramme und Tabellen dargestellt.

Allerdings räumt OpenAI selbst ein, dass der Hub nur einen „Teilbereich“ der internen Sicherheitsbewertungen zeige und eine „Momentaufnahme“ darstelle. Kritiker:innen sehen darin eine fundamentale Einschränkung. Wie Engadget kommentiert, gebe es „keine Garantie, dass das Unternehmen alle seine Probleme oder Bedenken mit der Öffentlichkeit teilen wird“.

Die Tücken der Selbstkontrolle

Das grundlegende Problem sehen viele Expert:innen darin, dass OpenAI sozusagen seine „eigenen Hausaufgaben bewertet“, ohne dass eine unabhängige externe Überprüfung der Tests oder der Auswahl der veröffentlichten Daten stattfindet. Diese Form der Selbstauskunft ist in der Industrie nicht unüblich, steht aber oft in der Kritik.