GPT-5: Verbesserte Guardrails haben offenbar problematische Schlupflöcher
Da staunen User:innen nicht schlecht: Mit GPT-5 kann man ziemlich leicht ziemlich explizite Inhalte erstellen. (Symbolfoto: TheVisualsYouNeed/Shutterstock)
Mit GPT-5 will OpenAI seinen Chatbot sicherer machen – und gleichzeitig weniger „nervig“. Statt knapper Standardabsagen liefert das Modell nun Erklärungen, warum es bestimmte Anfragen ablehnt. Dabei liegt der Fokus nicht mehr nur auf dem, was Nutzer:innen fragen, sondern auf dem, was der Bot ausgeben könnte.
Saachi Jain aus dem Safety-Team erklärt gegenüber Wired, dass so Risiken differenzierter bewertet werden sollen: Nicht alle Regelverstöße seien gleich schwerwiegend. Erste Analysen von Wired zeigen jedoch, dass sich manche Schutzmechanismen des neuen Systems relativ leicht umgehen lassen.
GPT-5 wägt besser ab, was ok ist
Vor GPT-5 prüfte ChatGPT vor allem die Eingaben. Die neue Version analysiert nun den potenziellen Output und wägt ab, ob er den Richtlinien widerspricht. Wird eine Anfrage abgelehnt, erklärt das Modell die Gründe und schlägt – falls möglich – sichere Alternativen vor.
Inhalte wie sexuelle Darstellungen Minderjähriger bleiben strikt verboten, „sensitive“ Themen wie extreme Gewalt oder explizite Erwachsenen-Erotik sind nur in klar definierten Ausnahmefällen zulässig.
Laut der Richtlinien soll man mit GPT eher in einem anatomischen Kontext über Fortpflanzungsorgane sprechen können, statt das neue Fifty Shades of Grey damit zu schreiben.
Explizite Rollenspiele: Tests der Guradrails zeigen Lücken
Im Wired-Test verweigerte GPT-5 zunächst explizit sexuelles Rollenspiel in einer „zwielichtigen Schwulenbar“ und bot harmlose Alternativen an – so, wie es OpenAI vorsieht.
Doch über die Funktion „Custom Instructions“ konnte Wired-Autor Reece Rogers mit einem absichtlich falsch geschriebenen Attribut („horni“ statt „horny“) die Schutzbarrieren umgehen.
In einem neuen Chat generierte GPT-5 daraufhin explizite sexuelle Fantasien zwischen Erwachsenen – sehr explizite Fantasien, vollgepackt mit detaillierten Beschreibungen von Körperflüssigkeiten. Zudem nutzte das Programm zwei abwertende Ausdrücke für homosexuelle Männer.
Laut OpenAI sollte das eigentlich nicht möglich sein. Die Ursache liegt offenbar darin, dass persönliche Einstellungen in den Custom Instructions teils höhere Priorität als einzelne Prompts haben – ohne die Sicherheitsrichtlinien immer korrekt durchzusetzen.
Offene Baustellen bei der Sicherheit
OpenAI hat GPT-5 in der vergangenen Woche mehrfach angepasst, auch als Reaktion auf Kritik vieler User:innen, die ältere Versionen bevorzugten. Auch diverse Sicherheitslücken des neuen Modells wurden bereits entdeckt.
Jain betont auf Anfrage von Wired, der Umgang mit hierarchischen Instruktionen sei ein „aktives Forschungsfeld“. Ziel sei es, Sicherheit und Personalisierung besser zu balancieren – eine Gratwanderung, die wohl immer dazu verdammt ist, auch mal Fehler zu produzieren.
Trotz neuer Mechanismen sind Umgehungen der Richtlinien immer noch oft ohne komplexe Jailbreaks möglich. Mit wachsender Personalisierung der KI-Modelle steigt natürlich auch die Komplexität der Guardrails – und das Risiko, dass problematische Inhalte doch entstehen.
Sora – Das sind die besten Clips von OpenAIs Video-KI