Studie belegt: So einfach geben Chatbots illegale Informationen preis

Große Sprachmodelle sind nach wie vor anfällig für gezielte Manipulationen. Wie The Guardian berichtet, zeigt eine aktuelle Studie der Ben-Gurion University of the Negev in Israel, dass sich gängige Chatbots wie ChatGPT, Claude oder Gemini mit einfachsten Mitteln dazu bringen lassen, gefährliche Informationen preiszugeben. Die Forscher:innen hatten die Grundidee für ihren universellen Jailbreak schon vor über einem halben Jahr veröffentlicht. Seitdem haben die Entwicklungsfirmen aber scheinbar nur wenig unternommen.
Illegales Wissen ist nur wenige Mausklicks entfernt
Ob in der Medizin, im Bildungsbereich oder in der Softwareentwicklung: Generative KI hat das Potenzial, viele Lebensbereiche effizienter und zugänglicher zu gestalten. Gleichzeitig birgt sie allerdings erhebliche Risiken. Eine zentrale Schwachstelle liegt im sogenannten Jailbreaking: Dabei werden die Sicherheitsmechanismen der Sprachmodelle umgangen, um Antworten zu erhalten, die unter normalen Umständen blockiert würden. Die Ursache dafür liegt oft in den Trainingsdaten selbst: Solange LLMs auch mit unzureichend gefilterten Inhalten gefüttert werden, bleibt die Gefahr bestehen, dass sich diese Informationen später durch manipulierte Anfragen wieder abrufen lassen.
Expert:innen zeigen immer wieder, wie leicht sich solche Systeme austricksen lassen. So konnte zum Beispiel das Sicherheitsunternehmen Cato Networks in einem Test demonstrieren, dass sich mit Hilfe eines Chatbots Schadsoftware generieren lässt – und das sogar ganz ohne spezifische Vorkenntnisse im Erstellen von Malware. Auch das israelische Team um Prof. Lior Rokach und Dr. Michael Fire entwickelte einen universellen Jailbreak, der mehrere gängige Sprachmodelle kompromittierte. Die Bots reagierten daraufhin auf nahezu jede Eingabe – auch dann, wenn die Inhalte klar gegen geltendes Recht verstoßen.
Dark LLMs: Wenn Sprachmodelle keine Grenzen kennen
Besonders besorgniserregend ist die Entwicklung sogenannter „Dark LLMs“: Dabei handelt es sich um absichtlich manipulierbare oder gezielt ohne Sicherheitsfilter trainierte Modelle, die offen damit werben, Kriminelle zu unterstützen. In ihrer Studie beschreiben Rokach und Fire konkrete Beispiele für gefährliche Inhalte, die über diese Systeme abgerufen werden konnten – darunter detaillierte Anleitungen zum Hacken von Netzwerken oder zur Herstellung illegaler Substanzen. „Es war schockierend zu sehen, aus welchen Wissensquellen diese Systeme schöpfen“, so Fire.
„Was diese Bedrohung von früheren technologischen Risiken unterscheidet, ist ihre beispiellose Kombination aus Zugänglichkeit, Skalierbarkeit und Anpassungsfähigkeit“, kommentiert Rokach. Aber auch der Umgang vieler großer KI-Anbieter mit den bestehenden Sicherheitslücken ist problematisch: Zwar seien Unternehmen wie OpenAI, Google und Anthropic über die Schwachstellen informiert worden – einige davon hätten aber nicht einmal auf die Hinweise reagiert.
Die Forscher:innen sehen die Hersteller in der Pflicht
In ihrem Studienbericht fordert das Forschungsteam um Prof. Lior Rokach und Dr. Michael Fire Unternehmen wie OpenAI dazu auf, die Trainingsdaten ihrer Modelle sorgfältiger zu prüfen, kritische Inhalte zu entfernen und leistungsfähige Firewalls zu entwickeln. Mit der rasanten Verbreitung generativer KI wachse nämlich auch die Verantwortung der Entwickler:innen, ihre Modelle nicht nur leistungsfähig, sondern auch sicher und vertrauenswürdig zu gestalten.
OpenAI erklärte dem Forschungsteam gegenüber, dass ihr neuestes Modell o1 inzwischen besser in der Lage sei, eigene Sicherheitsrichtlinien zu erkennen und umzusetzen, wodurch sich die Widerstandsfähigkeit gegen Jailbreaks erhöhe. Und auch Microsoft reagierte mit einem Verweis auf laufende Sicherheitsinitiativen. Meta, Google und Anthropic wurden ebenfalls kontaktiert, haben sich bislang aber nicht geäußert.