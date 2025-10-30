Der KI-Gigant OpenAI hat neue Modelle veröffentlicht. Diese drehen sich allerdings nicht darum, den eigenen Dienst ChatGPT mit neuen Funktionen zu versehen oder gar schneller zu machen. Stattdessen will OpenAI damit andere Unternehmen erreichen und stellt das KI-Modell in zwei Versionen dafür sogar kostenlos zur Verfügung. Grundsätzlich darf jeder die Modelle herunterladen, modifizieren und für eigene Zwecke nutzen.

Was OpenAI mit gpt-oss-safeguard bieten will

Wie schon erwähnt, gibt es „gpt-oss-safeguard“ in zwei Varianten – eine mit 20 Milliarden Parametern und eine, die 120 Milliarden Parameter mit sich bringt. Beide Künstliche Intelligenzen sind Reasoning-Modelle, die ihre Gedankengänge während der Lösung von Problemen offenlegen. Die besagten Probleme, die gpt-oss-safeguard bearbeiten soll, drehen sich um das Einhalten von Unternehmensrichtlinien.

Laut OpenAI gibt es mehrere Anwendungsmöglichkeiten. Zunächst können die KI-Modelle genutzt werden, um Content zu moderieren. So lassen sich einzelne Posts, komplette Chats oder auch Metadaten von Medien einspeisen und auf Verstöße gegen Richtlinien überprüfen. Dabei lassen sich die zugrundeliegenden Richtlinien jederzeit ändern, da diese nicht fest im Training von gpt-oss-safeguard implementiert wurden. Stattdessen können sie erst in der Inferenz-Phase hinzugefügt werden.

Daneben sind die Modelle in der Lage, Moderator:innen mit Entscheidungen zu unterstützen, Änderungen an den Richtlinien mit A/B-Tests zu kontrollieren sowie für unklare Beispiele und zu weit gefasste Regeln andere Formulierungen zu finden. So können die Modelle auch dabei helfen, neue Richtlinien zu erstellen und zu allmählich zu optimieren.

Letztlich müssen Unternehmen also den Content in die KI-Modelle einspeisen, den sie moderieren wollen, und welche Richtlinien gpt-oss-safeguard dabei beachten soll. OpenAI schreibt dazu: „Das Modell gibt als Output aus, in welche Kategorie der Inhalt fällt und welche Gründe es für die Entscheidung hat.“ Laut dem KI-Riesen eignet sich das primär in Situationen, in denen Richtlinien schnell an neue Umstände angepasst werden müssen oder es viele verschiedene Nuancen gibt, um sie durchzusetzen. Allerdings betont OpenAI auch, dass Latenz – also die Zeit, in der die Anfrage bearbeitet wird – keine größere Rolle spielen sollte. Dementsprechend benötigen die Reasoning-Modelle ein paar Augenblicke, um Aufgaben zu bewältigen.

Vor der Veröffentlichung wurde gpt-oss-safeguard schon mit Sicherheitsexpert:innen von Safetykit, Roost, Tomoro und Discord getestet und anhand des Feedbacks angepasst. Roost-CEO Vinay Rao sagt dazu: „gpt-oss-safeguard ist das erste Open-Source-Reasoning-Modell mit einem Bring-deine-eigenen-Richtlinien-und-Definitionen-von-Verstößen-Design. […] Während unserer Tests konnte es unterschiedliche Richtlinien verstehen, seine Gedankengänge erklären und uns Nuancen bei der Anwendung der Richtlinien zeigen“.

