Anzeige
Anzeige
Anzeige
Anzeige
Fundstück
Verpasse keine News mehr!

GPT-5: Verbesserte Guardrails haben offenbar problematische Schlupflöcher

OpenAI hat GPT-5 mit neuen Sicherheitsmechanismen ausgestattet, die unangebrachte Inhalte verhindern sollen. Doch erste Tests zeigen: Manche Schutzmaßnahmen lassen sich weiterhin überraschend leicht umgehen.

Von Christian Weindl
2 Min.
Artikel merken
Anzeige
Anzeige

Da staunen User:innen nicht schlecht: Mit GPT-5 kann man ziemlich leicht ziemlich explizite Inhalte erstellen. (Symbolfoto: TheVisualsYouNeed/Shutterstock)

Mit GPT-5 will OpenAI seinen Chatbot sicherer machen – und gleichzeitig weniger „nervig“. Statt knapper Standardabsagen liefert das Modell nun Erklärungen, warum es bestimmte Anfragen ablehnt. Dabei liegt der Fokus nicht mehr nur auf dem, was Nutzer:innen fragen, sondern auf dem, was der Bot ausgeben könnte.

Anzeige
Anzeige

Saachi Jain aus dem Safety-Team erklärt gegenüber Wired, dass so Risiken differenzierter bewertet werden sollen: Nicht alle Regelverstöße seien gleich schwerwiegend. Erste Analysen von Wired zeigen jedoch, dass sich manche Schutzmechanismen des neuen Systems relativ leicht umgehen lassen.

GPT-5 wägt besser ab, was ok ist

Vor GPT-5 prüfte ChatGPT vor allem die Eingaben. Die neue Version analysiert nun den potenziellen Output und wägt ab, ob er den Richtlinien widerspricht. Wird eine Anfrage abgelehnt, erklärt das Modell die Gründe und schlägt – falls möglich – sichere Alternativen vor.

Anzeige
Anzeige

Inhalte wie sexuelle Darstellungen Minderjähriger bleiben strikt verboten, „sensitive“ Themen wie extreme Gewalt oder explizite Erwachsenen-Erotik sind nur in klar definierten Ausnahmefällen zulässig.

Laut der Richtlinien soll man mit GPT eher in einem anatomischen Kontext über Fortpflanzungsorgane sprechen können, statt das neue Fifty Shades of Grey damit zu schreiben.

Explizite Rollenspiele: Tests der Guradrails zeigen Lücken

Im Wired-Test verweigerte GPT-5 zunächst explizit sexuelles Rollenspiel in einer „zwielichtigen Schwulenbar“ und bot harmlose Alternativen an – so, wie es OpenAI vorsieht.

Doch über die Funktion „Custom Instructions“ konnte Wired-Autor Reece Rogers mit einem absichtlich falsch geschriebenen Attribut („horni“ statt „horny“) die Schutzbarrieren umgehen.

Anzeige
Anzeige

In einem neuen Chat generierte GPT-5 daraufhin explizite sexuelle Fantasien zwischen Erwachsenen – sehr explizite Fantasien, vollgepackt mit detaillierten Beschreibungen von Körperflüssigkeiten. Zudem nutzte das Programm zwei abwertende Ausdrücke für homosexuelle Männer.

Laut OpenAI sollte das eigentlich nicht möglich sein. Die Ursache liegt offenbar darin, dass persönliche Einstellungen in den Custom Instructions teils höhere Priorität als einzelne Prompts haben – ohne die Sicherheitsrichtlinien immer korrekt durchzusetzen.

Offene Baustellen bei der Sicherheit

OpenAI hat GPT-5 in der vergangenen Woche mehrfach angepasst, auch als Reaktion auf Kritik vieler User:innen, die ältere Versionen bevorzugten. Auch diverse Sicherheitslücken des neuen Modells wurden bereits entdeckt.

Anzeige
Anzeige

Jain betont auf Anfrage von Wired, der Umgang mit hierarchischen Instruktionen sei ein „aktives Forschungsfeld“. Ziel sei es, Sicherheit und Personalisierung besser zu balancieren – eine Gratwanderung, die wohl immer dazu verdammt ist, auch mal Fehler zu produzieren.

Trotz neuer Mechanismen sind Umgehungen der Richtlinien immer noch oft ohne komplexe Jailbreaks möglich. Mit wachsender Personalisierung der KI-Modelle steigt natürlich auch die Komplexität der Guardrails – und das Risiko, dass problematische Inhalte doch entstehen.

Sora – Das sind die besten Clips von OpenAIs Video-KI

Sora: Das sind die besten Clips von OpenAIs Video-KI Quelle: FilipArtLab / Shutterstock

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren