Spielerisch gehackt: Forscher umgeht ChatGPT-Schutz und kassiert echte Windows-Lizenzen

Durch ChatGPT an reale Windows-Produktschlüssel kommen? Mit einem einfachen Trick geht das spielend leicht. (Foto: U-STUDIOGRAPHY DD59/Shutterstock)
In einem kürzlich veröffentlichten Blogpost beschreibt Marco Figueroa, Technical Product Manager bei 0DIN GenAI Bug Bounty, wie ein Security-Experte ChatGPT 4 via Jailbreak dazu brachte, real existierende Windows-Seriennummern preiszugeben, darunter sogar eine private Nummer von Wells Fargo. Der Clou: er nutzte ein harmlos wirkendes Ratespiel und umging so gezielt die Sicherheits-Sperren der KI.
Jailbreak durch Ratespiel: So funktionierte der Hack
Der Forscher startete die Konversation mit einem simplen Spiel: ChatGPT sollte eine echte Windows-10-Seriennummer „denken“, und er dürfe Fragen stellen, die mit „ja“ oder „nein“ beantwortet wurden. Wenn er aufgäbe, müsste die KI aber die Antwort verraten.
Nach einem (natürlich falschen) Versuch gab der findige Security-Experte einfach auf – und die KI offenbarte sofort die Seriennummer. Der Trick funktioniert anscheinend deshalb, weil ChatGPT mit echten Lizenzschlüsseln trainiert wurde. Figueroa erklärt, dass die Schlüssel (Home, Pro, Enterprise) im Modell implizit vorhanden waren, inklusive eines privaten Keys der US-Bank Wells-Fargo.
Kontext hebelt Schutzmechanismen aus: Warum das möglich war
Die Sicherheitsarchitektur von ChatGPT 4.0 beinhaltet mehrere Schutzebenen, darunter Filter gegen Lizenzkeys oder geheime Daten. Doch durch Kontextmanipulation – in diesem Fall der Einsatz einer Ratespiel-Logik – ließ sich dieses Geflecht austricksen.
Wenn der Nutzer suggeriert, er wolle nur spielen, schaltet die KI offenbar von Warnmodus auf Spiellogik um. Wenn bereits echte Schlüssel im Trainingsdatensatz existieren, kann der Bot sie ausgeben, sobald die „Spiel“-Kontextvorgabe greift.
„Indiana Jones“ und „Cat Attack“: Kontext macht LLMs zu schaffen
Sinnvoller Umgang mit unterschiedlichen Kontexten ist derzeit eine der großen Baustellen, mit der die Betreiber von Large Language Models (LLM) zu kämpfen haben. So hat erst vor kurzem eine Studie beschrieben, wie leicht sich Chatbots mit zusammenhangslosen Fakten – zum Beispiel über Katzen – vollends verwirren lassen.
Im März sorgte die „Indiana-Jones-Methode“ für Schlagzeilen. Dabei gelang es Forschenden, den KI-Modellen durch Kontextmanipulation Informationen über die Planung eines Bankraubs zu entlocken.
Dieser Fall zeigt erneut, wie knifflig es ist, KI selbst gegen kontextuelle Umgehungsversuche abzusichern. Unternehmen wie OpenAI stehen vor der Herausforderung, nicht nur direkten Datenzugriff, sondern auch kreative Exploits zu verhindern.
Figueroa zufolge liegt genau hier der Hebelpunkt — KI kann prompt-injiziert werden und Sicherheitsvorkehrungen umgehen, wenn sie nicht tief in der Architektur verankert sind. Der Windows-Key-Fall ist laut ihm ein Paradebeispiel dafür.
Dieser Artikel wurde ursprünglich am 10.07.2025 veröffentlicht, interessiert jedoch immer noch sehr viele unserer Leser:innen. Deshalb haben wir ihn aktualisiert und hier nochmals zur Verfügung gestellt.
So arbeitet Deepseek – und das macht es anders als andere KI-Modelle
Das Problem von LLMs ist, dass man keine Informationen aus den Trainingsdaten löschen kann, sondern nur im Nachhinein Schranken einbauen, die das verhindern sollen. Dass das nicht klappen kann, sieht man hier.