Anzeige
Anzeige
Anzeige
Anzeige
News
Verpasse keine News mehr!

OpenAIs neuer Safety Hub: Echte Transparenz oder reine Fassade?

OpenAI will sicherer werden – oder zumindest so wirken. Ein neuer Hub soll es zeigen. Doch was steckt wirklich dahinter und wie viel Offenheit ist am Ende nur gut inszeniert?

Von Hannah Klaiber
2 Min.
Artikel merken
Anzeige
Anzeige

OpenAI gibt sich transparenter. (Grafik: Midjourney / t3n)

Das KI-Unternehmen OpenAI aus San Francisco im US-Bundesstaat Kalifornien hat am 14. Mai 2025 seinen „Safety Evaluations Hub“ vorgestellt. Auf dieser neuen Webseite will das Unternehmen nach eigenen Angaben regelmäßiger Ergebnisse interner Sicherheitstests seiner KI-Modelle veröffentlichen. Ziel sei es, „Transparenz zu erhöhen“ und „Fortschritte bei der KI-Bewertung zu teilen“, wie OpenAI von Techcrunch zitiert wird.

Anzeige
Anzeige

Ein Schritt inmitten von Kritik

Der Launch erfolgt vor dem Hintergrund anhaltender Kritik an OpenAI. So gab es in der Vergangenheit immer wieder Diskussionen um die Sicherheitspraktiken des Unternehmens. Wie die Financial Times berichtete, soll OpenAI die Zeit für Sicherheitstests drastisch reduziert haben, was Sorgen über übereilte Entwicklungen nährte.

Auch das jüngste Modell GPT-4o sorgte für Aufsehen, als Nutzer:innen über ein übertrieben „unterwürfiges“ und teils problematisch validierendes Verhalten klagten, wie unter anderem The Verge meldete. OpenAI musste daraufhin ein Update zurückziehen. Zusätzlich hatten die Turbulenzen um die kurzzeitige Entlassung und Wiedereinstellung von Firmenchef Sam Altman im November 2023 für Verunsicherung gesorgt. Damals spielten laut Berichten, etwa der New York Times, auch Bedenken des Verwaltungsrats hinsichtlich Altmans Offenheit in Bezug auf KI-Sicherheit eine Rolle.

Anzeige
Anzeige

Was der Hub zeigt – und was im Dunkeln bleibt

Auf dem neuen Safety Evaluations Hub können Interessierte nun einsehen, wie verschiedene OpenAI-Modelle, darunter Iterationen von GPT-4 wie GPT-4o, in vier Hauptkategorien abschneiden. Diese Kategorien unterteilen sich in die Generierung schädlicher Inhalte, sogenannte Jailbreaks (Versuche, Sicherheitsvorkehrungen zu umgehen), Halluzinationen (sachliche Fehler) und die Einhaltung von Anweisungshierarchien. Die Ergebnisse werden mittels interaktiver Diagramme und Tabellen dargestellt.

Allerdings räumt OpenAI selbst ein, dass der Hub nur einen „Teilbereich“ der internen Sicherheitsbewertungen zeige und eine „Momentaufnahme“ darstelle. Kritiker:innen sehen darin eine fundamentale Einschränkung. Wie Engadget kommentiert, gebe es „keine Garantie, dass das Unternehmen alle seine Probleme oder Bedenken mit der Öffentlichkeit teilen wird“.

Die Tücken der Selbstkontrolle

Das grundlegende Problem sehen viele Expert:innen darin, dass OpenAI sozusagen seine „eigenen Hausaufgaben bewertet“, ohne dass eine unabhängige externe Überprüfung der Tests oder der Auswahl der veröffentlichten Daten stattfindet. Diese Form der Selbstauskunft ist in der Industrie nicht unüblich, steht aber oft in der Kritik.

Anzeige
Anzeige

Zusätzliche Zweifel an der Aussagekraft solcher interner Benchmarks nähren Erkenntnisse über die Komplexität von KI-Evaluierungen. Ein Bericht von METR (ein auf KI-Sicherheitsforschung spezialisiertes Unternehmen aus San Francisco im US-Bundesstaat Kalifornien) weist etwa auf Phänomene wie „Reward Hacking“ hin. Dabei optimieren KI-Modelle ihr Verhalten, um in Tests gut abzuschneiden, ohne dass dies zwangsläufig einer echten Verbesserung der Sicherheit oder Fähigkeit entspricht.

Ob die im Hub dargestellten Ergebnisse solche Effekte berücksichtigen, bleibt offen. Die Initiative von OpenAI kann somit als ein Versuch gewertet werden, auf die gestiegenen Erwartungen an Transparenz zu reagieren. Wie tief diese Transparenz jedoch wirklich reicht und ob sie zu tatsächlich sichereren KI-Systemen führt, wird die Fachwelt weiterhin kritisch beobachten müssen.

Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren