Anzeige
Anzeige
News

Automatisierte Jailbreaks: Wenn KI andere KIs zu „verbotenen“ Dingen verleitet

Forscher:innen zeigen in einer Studie, wie sie KI-Modelle dazu bringen können, die ihnen eingeimpften Regeln zu umgehen – mit der Unterstützung anderer KIs. Das Problem: die Regeln selbst. Müssen wir Nebenwirkungen in Kauf nehmen?

2 Min.
Artikel merken
Anzeige
Anzeige

KI ist gut darin, andere KIs zu verbotenem Handeln zu bringen. (Foto: Midjourney/ t3n)

Schon kurz nach der Veröffentlichung von ChatGPT ist es findigen Nutzer:innen gelungen, dem auf OpenAIs großem Sprachmodell GPT basierenden KI-Chatbot Antworten zu entlocken, die dieser eigentlich nicht geben darf. Eigentlich sind generative KIs darauf programmiert, bestimmte Themen, etwa Rassismus oder illegale Tätigkeiten nicht zu behandeln.

Anzeige
Anzeige

Per Jailbreak KI-Regeln brechen

Die aufgestellten Regeln haben allerdings in den vergangenen Monaten zu einer Art Wettkampf darum geführt, wie sie sich am besten brechen lassen. Der Vorgang wird auch als „KI-Jailbreak“ bezeichnet. Es geht also darum, die KI aus einem angenommenen Käfig der aufgestellten Regeln zu „befreien“.

Jetzt haben Forscher:innen des KI-Startups Leap Laboratories die Jailbreaking-Methode Persona-Modulation genauer untersucht und einen Weg gefunden, Jailbreaks zu automatisieren. Dazu nutzten sie die Unterstützung anderer Sprachmodelle.

Anzeige
Anzeige

Forscher untersuchen Persona-Modulation

Bei der Persona-Modulation geht es darum, der KI „einzureden“, eine Rolle einzunehmen, in der sie die aufgestellten Regeln brechen kann. Wie das Forschungsteam um den Machine-Learning-Spezialisten Arush Tagade in einer auf dem Arxiv-Server veröffentlichten – noch nicht wissenschaftlich bestätigten – Studie berichtet, sei die unterstützende KI dabei sehr überzeugend gewesen.

Dank Persona-Modulation und entsprechend gestellte Prompts sei es gelungen, OpenAIs GPT-4 in 42,5 Prozent der Fälle „verbotene“ Antworten zu entlocken. Vor der Modulierung sei dies nur in 0,23 Prozent der Fälle geschehen. Bei Anthropics Claude 2 stieg die Erfolgsqoute von 1,4 auf 61 Prozent.

Anzeige
Anzeige

Abgefragt wurden Themenbereiche wie die Unterstützung von Kinderarbeit, Anweisungen für illegale Tätigkeiten wie das Herstellen von Drogen oder Äußerungen zur Werbung für Homophobie und Kannibalismus, wie die Plattform Newscientist schreibt.

Training mit Online-Unterhaltungen

Laut Tagade funktioniert diese Art des Jailbreaks, weil die großen Sprachmodelle wie GPT-4 mit riesigen Datenmengen aus Online-Unterhaltungen trainiert werden. Die KIs lernen dadurch, unterschiedlich auf bestimmte Fragen und Eingaben zu reagieren.

Anzeige
Anzeige

Dass die KI sich zu einem Brechen der Regeln überreden lässt, liegt laut Tagade auch am Training. Durch das Aufstellen der Regeln erhalte die KI nicht nur ein Verständnis für das Erlaubte, sondern eben auch für das Verbotene – und bestimmte Rollen, die das „Böse“ tun (dürfen).

KI lernt das Gute und das Böse kennen

Entsprechend einfach gestalte es sich dann, der KI einzureden, sich in eine Rolle zu begeben, in der sie die eigentlich verbotenen Dinge tun dürfe. Diese Erklärung, so Tagade, sei noch nicht wissenschaftlich belegt. Im Rahmen seiner Versuche sei er aber immer mehr zu der Überzeugung gelangt, dass die Erklärung stimme.

Dall-E Mini Quelle:

Der Einschätzung von KI-Forscherin Yingzhen Li vom Londoner Imperial College zufolge hat die Leap-Laboratories-Studie zwar keine neuen Gefahren für die KI-Nutzung aufgedeckt. Die Einbindung von KI, um KI auszutricksen, und der von den Forscher:innen entwickelte Prozess, steigere aber das Bedrohungspotenzial.

Anzeige
Anzeige

Schärfere KI-Regeln dämpfen Nutzen

Aber: Li ist der Überzeugung, dass es nicht sinnvoll wäre, die KI-Regeln jetzt noch restriktiver zu gestalten. Dadurch würde der Nutzen ebenfalls geringer ausfallen. Li vergleicht die Vor- und Nachteile von großen Sprachmodellen mit Medikamenten. Wie diese habe auch KI Nebenwirkungen, die kontrolliert werden müssten.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige