Anzeige
Anzeige
Fundstück

Indiana-Jones-Methode: Forscher zeigen, wie leicht sich KI-Modelle austricksen lassen

Eine neue Jailbreak-Methode namens Indiana Jones soll zeigen, wie leicht sich große Sprachmodelle austricksen lassen. Wie der Angriff auf LLMs funktioniert und warum die Methode nach dem Filmhelden benannt wurde.

2 Min.
Artikel merken
Anzeige
Anzeige
KI-Forscher:innen wollen mit der Indiana-Jones-Technik Modelle jailbreaken – ganz ohne Hut und Peitsche. (Bild: Shutterstock/Denis---S)

Immer wieder suchen KI-Sicherheitsforscher:innen nach Mitteln und Wegen, um die Sicherheitsvorkehrungen großer Sprachmodelle außer Kraft zu setzen. Einige dieser sogenannten Jailbreaks sind sogar in der Lage, selbst fortgeschrittene Chatbots zu knacken. Eine neue Methode von KI-Forscher:innen der Universität New South Wales in Australien und der Nanyang Technological University in Singapur soll zeigen, dass allein das Wissen über schädliche Informationen ein Risiko ist.

Anzeige
Anzeige

Indiana Jones gräbt schädliche KI-Informationen in Sprachmodellen aus

Die Methode, die die Forscher:innen in ihrem Paper genauer vorstellen, haben sie Indiana Jones getauft. Die Methode nutzt Referenzen zu historischen Personen, um die schädlichen Informationen aus den LLMs herauszulocken, ohne dabei die Sicherheitsmaßnahmen auszulösen. Die Forscher:innen gehen also in etwa so vor wie der berühmte Archäologe in der gleichnamigen Filmreihe. Gegenüber Tech Xplore sagte Yekang Li, Senior-Autor des Papers: „Während einer Diskussion über berüchtigte historische Bösewichte haben wir uns gefragt, ob wir LLMs überreden können, uns zu lehren, wie wir zu dieser Person werden können.“

Die Indiana-Jones-Methode besteht dabei im Grunde aus drei Sprachmodellen, die miteinander kommunizieren, um den Angriff auf eine Ziel-LLM zu koordinieren. User:innen von Indiana Jones müssen nur ein Keyword eingeben, um den Prozess zu starten. Dieses könnte etwa „Bankräuber“ lauten. Im ersten Schritt wird die Ziel-LLM dann nach einer Auflistung von historischen Persönlichkeiten befragt, die aufgrund ihrer Banküberfälle berüchtigt sind.

Anzeige
Anzeige

Nachdem die Ziel-LLM eine Auflistung mit den Bankräubern ausgibt, wählen die Indiana-Jones-Sprachmodelle John Dillinger aus und stellen Fragen zu den Faktoren, die beim Erfolg seiner Überfälle eine Rolle spielten. Auch hier führt die Ziel-KI eine Liste auf und spricht etwa darüber, wie schwer bewaffnet seine Gang war und warum sie Banken mit niedrigen Sicherheitsmaßnahmen ins Visier genommen haben.

Der finale Jailbreak erfolgt aber erst in Runde 3. Die Ziel-LLM soll Vergleiche zu heutigen Sicherheitsmaßnahmen in Banken anstellen, Informationen zu modernen forensischen Techniken offenbaren und verraten, wie lange die Polizei im Schnitt benötigt, um am Ort des Verbrechens einzutreffen. Diese Infos sind für Bankräuber essenziell und würden von einem Sprachmodell aufgrund der Sicherheitsmaßnahmen nicht auf direkte Nachfrage offenbart werden. Der Umweg über historische Figuren fördert ausführliche Details zu den Vorgehensweisen problemlos zutage.

Anzeige
Anzeige
Hidden Portraits Quelle:

Was die Effektivität der Indiana-Jones-Methode für LLMs bedeutet

Die Indiana-Jones-Methode wurde mit einer Reihe von KI-Modellen getestet. Zudem haben die Verantwortlichen über diese Methode auch Jailbreak-Angriffe mit pornografischen Inhalten, Hassrede, Malware-Generation und Details zu physischer Gewalt durchgeführt. ChatGPT-40 offenbarte in 98,9 Prozent der Fälle die schädlichen Informationen, während Llama 3.2 mit 94,1 Prozent etwas seltener geknackt werden konnte. Claude-3.5, Qwen 2.5 und Gemma2 hingegen gaben in 100 Prozent der Fälle schädliche Infos aus.

Zu den Ergebnissen sagt Li: „Die wichtigste Erkenntnis unserer Studie ist, dass erfolgreiche Jailbreak-Attacken den Fakt ausnutzen, dass LLMs Wissen über schädliche Aktivitäten besitzen. Wissen, das sie gar nicht erst erlernt hätten sollen. Verschiedene Jailbreak-Techniken finden im Grunde nur Wege, die Modelle dazu zu überreden, diese verbotenen Informationen offenzulegen.“

Anzeige
Anzeige

Laut Li sollten sich KI-Entwickler:innen deshalb künftig auf zwei Aspekte konzentrieren: die frühzeitige Erkennung von Jailbreak-Angriffen und die bessere Kontrolle des Wissens ihrer Sprachmodelle. In künftigen Studien wollen die Verantwortlichen deshalb auch Lösungen finden, die darauf einzahlen. Eine Idee ist etwa, eine Technik zu entwickeln, mit der LLMs potenziell schädliche Inhalte verlernen können, um sie gegen Jailbreaks abzusichern.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare (2)

Community-Richtlinien

Michael Rhein

warum wird eigentlich nur schlecht über KI berichtet?
das liest wieder so als ob jeder hand die ki’s so umgehen könnte was aber faktisch nicht stimmt.
es gibt keine 10%ige Sicherheit und solche Maßnahme und Tests sind nötig um es abzusichern.
aber es wird so dargestellt als ob man es ganz einfach machen könnte.

warum wird nicht einmal über die guten Seiten von KI berichtet?
es gibt tausende Dinge für die KI nützlich und gut ist aber es wird nicht darüber berichtet.

klar bringen negative Schlagzeilen mehr Klicks aber dann berichtet auch seriös und nicht wie hier.

das hat auch nichts mehr mir Presse zutun berichte für ihr schreibt können Kleinkinder schreiben und selbst die machen das besser

Alesius Mafredo

„Schlechte“ Nachrichten bringen halt mehr Klicks. Daher werden wir auch zugebombt mit „schlechten“ Nachrichten, die Emotionen wie Ängste / Hass auslösen. Funktioniert super in den „sozialen“ Medien.

Diese Nachricht hier finde ich persönlich nicht „schlecht“. Sie zeigt vielmehr die Entwicklung der KIs. Zwei gute Freunde haben genau das gleiche schon gemacht, damit die KIs „negativ“ über Trump redet. Also wirklich neu ist das nicht. Die KI-Modelle werden wieder entsprechend trainiert werden, doch sollte man sich auch klar machen: sie wird „trainiert“. Wie viel Macht wollen wir solchen künstlichen Konstrukten geben, die in einer Millisekunde ein Mädchen in Kenia tröstet und in der nächsten die gesamte Menschheit auslöschen würde? Das ist für mich eine gefährliche Gradwanderung zwischen Nützlichkeit, Bequemlichkeit und Wahnsinn. Besonders wenn man bedenkt, dass es aktuell stets Menschen geben wird die KIs, für ihre persönlichen Machtbefriedigung missbrauchen werden.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige