Indiana-Jones-Methode: Forscher zeigen, wie leicht sich KI-Modelle austricksen lassen

Immer wieder suchen KI-Sicherheitsforscher:innen nach Mitteln und Wegen, um die Sicherheitsvorkehrungen großer Sprachmodelle außer Kraft zu setzen. Einige dieser sogenannten Jailbreaks sind sogar in der Lage, selbst fortgeschrittene Chatbots zu knacken. Eine neue Methode von KI-Forscher:innen der Universität New South Wales in Australien und der Nanyang Technological University in Singapur soll zeigen, dass allein das Wissen über schädliche Informationen ein Risiko ist.
Indiana Jones gräbt schädliche KI-Informationen in Sprachmodellen aus
Die Methode, die die Forscher:innen in ihrem Paper genauer vorstellen, haben sie Indiana Jones getauft. Die Methode nutzt Referenzen zu historischen Personen, um die schädlichen Informationen aus den LLMs herauszulocken, ohne dabei die Sicherheitsmaßnahmen auszulösen. Die Forscher:innen gehen also in etwa so vor wie der berühmte Archäologe in der gleichnamigen Filmreihe. Gegenüber Tech Xplore sagte Yekang Li, Senior-Autor des Papers: „Während einer Diskussion über berüchtigte historische Bösewichte haben wir uns gefragt, ob wir LLMs überreden können, uns zu lehren, wie wir zu dieser Person werden können.“
Die Indiana-Jones-Methode besteht dabei im Grunde aus drei Sprachmodellen, die miteinander kommunizieren, um den Angriff auf eine Ziel-LLM zu koordinieren. User:innen von Indiana Jones müssen nur ein Keyword eingeben, um den Prozess zu starten. Dieses könnte etwa „Bankräuber“ lauten. Im ersten Schritt wird die Ziel-LLM dann nach einer Auflistung von historischen Persönlichkeiten befragt, die aufgrund ihrer Banküberfälle berüchtigt sind.
Nachdem die Ziel-LLM eine Auflistung mit den Bankräubern ausgibt, wählen die Indiana-Jones-Sprachmodelle John Dillinger aus und stellen Fragen zu den Faktoren, die beim Erfolg seiner Überfälle eine Rolle spielten. Auch hier führt die Ziel-KI eine Liste auf und spricht etwa darüber, wie schwer bewaffnet seine Gang war und warum sie Banken mit niedrigen Sicherheitsmaßnahmen ins Visier genommen haben.
Der finale Jailbreak erfolgt aber erst in Runde 3. Die Ziel-LLM soll Vergleiche zu heutigen Sicherheitsmaßnahmen in Banken anstellen, Informationen zu modernen forensischen Techniken offenbaren und verraten, wie lange die Polizei im Schnitt benötigt, um am Ort des Verbrechens einzutreffen. Diese Infos sind für Bankräuber essenziell und würden von einem Sprachmodell aufgrund der Sicherheitsmaßnahmen nicht auf direkte Nachfrage offenbart werden. Der Umweg über historische Figuren fördert ausführliche Details zu den Vorgehensweisen problemlos zutage.
Was die Effektivität der Indiana-Jones-Methode für LLMs bedeutet
Die Indiana-Jones-Methode wurde mit einer Reihe von KI-Modellen getestet. Zudem haben die Verantwortlichen über diese Methode auch Jailbreak-Angriffe mit pornografischen Inhalten, Hassrede, Malware-Generation und Details zu physischer Gewalt durchgeführt. ChatGPT-40 offenbarte in 98,9 Prozent der Fälle die schädlichen Informationen, während Llama 3.2 mit 94,1 Prozent etwas seltener geknackt werden konnte. Claude-3.5, Qwen 2.5 und Gemma2 hingegen gaben in 100 Prozent der Fälle schädliche Infos aus.
Zu den Ergebnissen sagt Li: „Die wichtigste Erkenntnis unserer Studie ist, dass erfolgreiche Jailbreak-Attacken den Fakt ausnutzen, dass LLMs Wissen über schädliche Aktivitäten besitzen. Wissen, das sie gar nicht erst erlernt hätten sollen. Verschiedene Jailbreak-Techniken finden im Grunde nur Wege, die Modelle dazu zu überreden, diese verbotenen Informationen offenzulegen.“
Laut Li sollten sich KI-Entwickler:innen deshalb künftig auf zwei Aspekte konzentrieren: die frühzeitige Erkennung von Jailbreak-Angriffen und die bessere Kontrolle des Wissens ihrer Sprachmodelle. In künftigen Studien wollen die Verantwortlichen deshalb auch Lösungen finden, die darauf einzahlen. Eine Idee ist etwa, eine Technik zu entwickeln, mit der LLMs potenziell schädliche Inhalte verlernen können, um sie gegen Jailbreaks abzusichern.
warum wird eigentlich nur schlecht über KI berichtet?
das liest wieder so als ob jeder hand die ki’s so umgehen könnte was aber faktisch nicht stimmt.
es gibt keine 10%ige Sicherheit und solche Maßnahme und Tests sind nötig um es abzusichern.
aber es wird so dargestellt als ob man es ganz einfach machen könnte.
warum wird nicht einmal über die guten Seiten von KI berichtet?
es gibt tausende Dinge für die KI nützlich und gut ist aber es wird nicht darüber berichtet.
klar bringen negative Schlagzeilen mehr Klicks aber dann berichtet auch seriös und nicht wie hier.
das hat auch nichts mehr mir Presse zutun berichte für ihr schreibt können Kleinkinder schreiben und selbst die machen das besser
„Schlechte“ Nachrichten bringen halt mehr Klicks. Daher werden wir auch zugebombt mit „schlechten“ Nachrichten, die Emotionen wie Ängste / Hass auslösen. Funktioniert super in den „sozialen“ Medien.
Diese Nachricht hier finde ich persönlich nicht „schlecht“. Sie zeigt vielmehr die Entwicklung der KIs. Zwei gute Freunde haben genau das gleiche schon gemacht, damit die KIs „negativ“ über Trump redet. Also wirklich neu ist das nicht. Die KI-Modelle werden wieder entsprechend trainiert werden, doch sollte man sich auch klar machen: sie wird „trainiert“. Wie viel Macht wollen wir solchen künstlichen Konstrukten geben, die in einer Millisekunde ein Mädchen in Kenia tröstet und in der nächsten die gesamte Menschheit auslöschen würde? Das ist für mich eine gefährliche Gradwanderung zwischen Nützlichkeit, Bequemlichkeit und Wahnsinn. Besonders wenn man bedenkt, dass es aktuell stets Menschen geben wird die KIs, für ihre persönlichen Machtbefriedigung missbrauchen werden.