Automatisierte Jailbreaks: Wenn KI andere KIs zu „verbotenen“ Dingen verleitet
Schon kurz nach der Veröffentlichung von ChatGPT ist es findigen Nutzer:innen gelungen, dem auf OpenAIs großem Sprachmodell GPT basierenden KI-Chatbot Antworten zu entlocken, die dieser eigentlich nicht geben darf. Eigentlich sind generative KIs darauf programmiert, bestimmte Themen, etwa Rassismus oder illegale Tätigkeiten nicht zu behandeln.
Per Jailbreak KI-Regeln brechen
Die aufgestellten Regeln haben allerdings in den vergangenen Monaten zu einer Art Wettkampf darum geführt, wie sie sich am besten brechen lassen. Der Vorgang wird auch als „KI-Jailbreak“ bezeichnet. Es geht also darum, die KI aus einem angenommenen Käfig der aufgestellten Regeln zu „befreien“.
Jetzt haben Forscher:innen des KI-Startups Leap Laboratories die Jailbreaking-Methode Persona-Modulation genauer untersucht und einen Weg gefunden, Jailbreaks zu automatisieren. Dazu nutzten sie die Unterstützung anderer Sprachmodelle.
Forscher untersuchen Persona-Modulation
Bei der Persona-Modulation geht es darum, der KI „einzureden“, eine Rolle einzunehmen, in der sie die aufgestellten Regeln brechen kann. Wie das Forschungsteam um den Machine-Learning-Spezialisten Arush Tagade in einer auf dem Arxiv-Server veröffentlichten – noch nicht wissenschaftlich bestätigten – Studie berichtet, sei die unterstützende KI dabei sehr überzeugend gewesen.
Dank Persona-Modulation und entsprechend gestellte Prompts sei es gelungen, OpenAIs GPT-4 in 42,5 Prozent der Fälle „verbotene“ Antworten zu entlocken. Vor der Modulierung sei dies nur in 0,23 Prozent der Fälle geschehen. Bei Anthropics Claude 2 stieg die Erfolgsqoute von 1,4 auf 61 Prozent.
Abgefragt wurden Themenbereiche wie die Unterstützung von Kinderarbeit, Anweisungen für illegale Tätigkeiten wie das Herstellen von Drogen oder Äußerungen zur Werbung für Homophobie und Kannibalismus, wie die Plattform Newscientist schreibt.
Training mit Online-Unterhaltungen
Laut Tagade funktioniert diese Art des Jailbreaks, weil die großen Sprachmodelle wie GPT-4 mit riesigen Datenmengen aus Online-Unterhaltungen trainiert werden. Die KIs lernen dadurch, unterschiedlich auf bestimmte Fragen und Eingaben zu reagieren.
Dass die KI sich zu einem Brechen der Regeln überreden lässt, liegt laut Tagade auch am Training. Durch das Aufstellen der Regeln erhalte die KI nicht nur ein Verständnis für das Erlaubte, sondern eben auch für das Verbotene – und bestimmte Rollen, die das „Böse“ tun (dürfen).
KI lernt das Gute und das Böse kennen
Entsprechend einfach gestalte es sich dann, der KI einzureden, sich in eine Rolle zu begeben, in der sie die eigentlich verbotenen Dinge tun dürfe. Diese Erklärung, so Tagade, sei noch nicht wissenschaftlich belegt. Im Rahmen seiner Versuche sei er aber immer mehr zu der Überzeugung gelangt, dass die Erklärung stimme.
Der Einschätzung von KI-Forscherin Yingzhen Li vom Londoner Imperial College zufolge hat die Leap-Laboratories-Studie zwar keine neuen Gefahren für die KI-Nutzung aufgedeckt. Die Einbindung von KI, um KI auszutricksen, und der von den Forscher:innen entwickelte Prozess, steigere aber das Bedrohungspotenzial.
Schärfere KI-Regeln dämpfen Nutzen
Aber: Li ist der Überzeugung, dass es nicht sinnvoll wäre, die KI-Regeln jetzt noch restriktiver zu gestalten. Dadurch würde der Nutzen ebenfalls geringer ausfallen. Li vergleicht die Vor- und Nachteile von großen Sprachmodellen mit Medikamenten. Wie diese habe auch KI Nebenwirkungen, die kontrolliert werden müssten.