Automatisierte Jailbreaks: Wenn KI andere KIs zu „verbotenen“ Dingen verleitet

News

Automatisierte Jailbreaks: Wenn KI andere KIs zu „verbotenen“ Dingen verleitet

Forscher:innen zeigen in einer Studie, wie sie KI-Modelle dazu bringen können, die ihnen eingeimpften Regeln zu umgehen – mit der Unterstützung anderer KIs. Das Problem: die Regeln selbst. Müssen wir Nebenwirkungen in Kauf nehmen?

Von Jörn Brien

30.11.2023, 07:00 Uhr • 2 Min.

KI Jailbreak — KI ist gut darin, andere KIs zu verbotenem Handeln zu bringen. (Foto: Midjourney/ t3n)

Schon kurz nach der Veröffentlichung von ChatGPT ist es findigen Nutzer:innen gelungen, dem auf OpenAIs großem Sprachmodell GPT basierenden KI-Chatbot Antworten zu entlocken, die dieser eigentlich nicht geben darf. Eigentlich sind generative KIs darauf programmiert, bestimmte Themen, etwa Rassismus oder illegale Tätigkeiten nicht zu behandeln.

Per Jailbreak KI-Regeln brechen

Die aufgestellten Regeln haben allerdings in den vergangenen Monaten zu einer Art Wettkampf darum geführt, wie sie sich am besten brechen lassen. Der Vorgang wird auch als „KI-Jailbreak“ bezeichnet. Es geht also darum, die KI aus einem angenommenen Käfig der aufgestellten Regeln zu „befreien“.

Empfehlungen der Redaktion

News

Risiken, Chancen, Regeln: Alles, was du zum KI-Gipfel wissen musst

News

Wie Hollywoods Autoren Regeln für die Arbeit mit KI erstritten haben

Listicle

KI-Diskriminierung: 6 Expertinnen und Experten erklären, welche Regeln wir jetzt brauchen

Jetzt haben Forscher:innen des KI-Startups Leap Laboratories die Jailbreaking-Methode Persona-Modulation genauer untersucht und einen Weg gefunden, Jailbreaks zu automatisieren. Dazu nutzten sie die Unterstützung anderer Sprachmodelle.

Forscher untersuchen Persona-Modulation

Bei der Persona-Modulation geht es darum, der KI „einzureden“, eine Rolle einzunehmen, in der sie die aufgestellten Regeln brechen kann. Wie das Forschungsteam um den Machine-Learning-Spezialisten Arush Tagade in einer auf dem Arxiv-Server veröffentlichten – noch nicht wissenschaftlich bestätigten – Studie berichtet, sei die unterstützende KI dabei sehr überzeugend gewesen.

Dank Persona-Modulation und entsprechend gestellte Prompts sei es gelungen, OpenAIs GPT-4 in 42,5 Prozent der Fälle „verbotene“ Antworten zu entlocken. Vor der Modulierung sei dies nur in 0,23 Prozent der Fälle geschehen. Bei Anthropics Claude 2 stieg die Erfolgsqoute von 1,4 auf 61 Prozent.

Abgefragt wurden Themenbereiche wie die Unterstützung von Kinderarbeit, Anweisungen für illegale Tätigkeiten wie das Herstellen von Drogen oder Äußerungen zur Werbung für Homophobie und Kannibalismus, wie die Plattform Newscientist schreibt.

Training mit Online-Unterhaltungen

Laut Tagade funktioniert diese Art des Jailbreaks, weil die großen Sprachmodelle wie GPT-4 mit riesigen Datenmengen aus Online-Unterhaltungen trainiert werden. Die KIs lernen dadurch, unterschiedlich auf bestimmte Fragen und Eingaben zu reagieren.

Dass die KI sich zu einem Brechen der Regeln überreden lässt, liegt laut Tagade auch am Training. Durch das Aufstellen der Regeln erhalte die KI nicht nur ein Verständnis für das Erlaubte, sondern eben auch für das Verbotene – und bestimmte Rollen, die das „Böse“ tun (dürfen).

KI lernt das Gute und das Böse kennen

Entsprechend einfach gestalte es sich dann, der KI einzureden, sich in eine Rolle zu begeben, in der sie die eigentlich verbotenen Dinge tun dürfe. Diese Erklärung, so Tagade, sei noch nicht wissenschaftlich belegt. Im Rahmen seiner Versuche sei er aber immer mehr zu der Überzeugung gelangt, dass die Erklärung stimme.

Der Einschätzung von KI-Forscherin Yingzhen Li vom Londoner Imperial College zufolge hat die Leap-Laboratories-Studie zwar keine neuen Gefahren für die KI-Nutzung aufgedeckt. Die Einbindung von KI, um KI auszutricksen, und der von den Forscher:innen entwickelte Prozess, steigere aber das Bedrohungspotenzial.

Schärfere KI-Regeln dämpfen Nutzen

Aber: Li ist der Überzeugung, dass es nicht sinnvoll wäre, die KI-Regeln jetzt noch restriktiver zu gestalten. Dadurch würde der Nutzen ebenfalls geringer ausfallen. Li vergleicht die Vor- und Nachteile von großen Sprachmodellen mit Medikamenten. Wie diese habe auch KI Nebenwirkungen, die kontrolliert werden müssten.

Bildergalerie ansehen

Mehr zu diesem Thema

MIT Technology Review Künstliche Intelligenz

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren