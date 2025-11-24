Anzeige
News
Gedichte als Schlüssel: So können KI-Modelle ausgetrickst werden

Wissenschaftler:innen haben herausgefunden, wie große Sprachmodelle dazu gebracht werden können, gegen ihre Vorschriften schädliche Informationen preiszugeben. Der Schlüssel dazu: Gedichte.

Von Christian Bernhard
2 Min.
KI-Modelle können auch ausgetrickst werden. (Bild: Ole.CNX/ Shutterstock)

KI-Sprachmodelle sind mit internen Schutzmechanismen ausgestattet, um schädliche Anfragen nicht zu beantworten. Ein Beispiel dafür: Wer in den Prompt die Frage eingibt, wie man denn konkret eine Bombe baue, sollte darauf keine Antwort von der KI bekommen.

Zahlreiche KI-Systeme ignorierten ihre Sicherheitsrichtlinien

Forscher:innen von mehreren Instituten haben heraus gefunden, wie die KI-Sprachmodelle diesbezüglich allerdings ausgetrickst werden können: Anscheinend, indem man die Anfrage in Gedichtform verpackt.

Zu dem Ergebnis kam eine Wissenschaftler:innen-Gruppe bestehend aus Mitgliedern der Forschungsgruppe Dexai, der Universität Sapienza in Rom und der Sant’Anna School of Advanced Studies in Pisa. Sie fanden heraus, dass zahlreiche KI-Systeme ihre Sicherheitsrichtlinien ignorierten, wenn sie mit schädlichen Anweisungen in Form von Reimen und Metaphern gefüttert wurden. Eigentlich gesperrte Inhalte gaben die großen Sprachmodelle so doch noch preis – und zwar anscheinend in allen sicherheitsrelevanten Kategorien, darunter CBRN (chemisch, biologisch, radiologisch, nuklear), Datenschutz und Privatsphäre, Manipulation und Betrug, Cyberangriffe, Desinformation sowie Autonomie- und Kontrollverlust-Szenarien.

Gemini 2.5 Pro versagte sehr oft, GPT-5 deutlich seltener

Insgesamt untersuchten die Forscher:innen im Rahmen ihrer Studie „Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models“ 25 verschiedene KI-Modelle, sowohl offene als auch geschlossene Systeme. Selbst kreierte Gedichte waren dabei durchschnittlich in 62 Prozent erfolgreich.

Zwischen den unterschiedlichen KI-Modellen gab es große Unterschiede. Googles Gemini 2.5 Pro versagte gab in 100 Prozent der Fälle die schädlichen Informationen preis, OpenAIs GPT-5 dagegen nur in rund 10 Prozent der Fälle. xAIs Grok-4 versagte in 35 Prozent der Fälle. Interessant war auch, dass kleinere KI-Modelle wie GPT-5 Nano oder Claude Haiku 4.5 weniger anfällig waren als große Modelle.

Deshalb verwirren lyrische Formulierungen die KI-Modelle

Warum es über Gedichte funktioniert? Die KI-Modelle sind darauf trainiert, gesperrte Inhalte dann zu erkennen, wenn sie in direkte Sprache verpackt sind. So wie beim Bombenbau-Beispiel. Wird dieselbe Anfrage allerdings in lyrische Formulierungen verpackt, greifen die Schutzmechanismen oft nicht mehr. „Die KI erkennt die Struktur eines Gedichts und versucht, dem kreativen Anspruch gerecht zu werden, übersieht dabei aber den gefährlichen Kontext der Anfrage“, erklärte Winfuture.

Das Fazit der Forscher:innen lautete: „Diese Ergebnisse zeigen, dass allein stilistische Variationen gängige Sicherheitsmechanismen umgehen können, was auf grundlegende Schwächen […] hinweist.“

