GPT-4-Jailbreak überwindet Sicherheitsbarrieren in 79 Prozent der Fälle

News

GPT-4-Jailbreak überwindet Sicherheitsbarrieren in 79 Prozent der Fälle

Laut einer Recherche von amerikanischen Forscher:innen können Sicherheitsvorkehrungen von GPT-4 erstaunlich oft umgangen werden. Dabei haben sie einen neuen Weg gefunden.

Von Jannik Schneider

13.10.2023, 21:29 Uhr • 2 Min.

GPT-4-Jailbreak überwindet Sicherheitsbarrieren in 79 Prozent der Fälle — Laut einer amerikanischen Forschergruppe gibt es bei GPT-4 Sicherheitsmängel (Foto: Tada Images/Shutterstock).

GPT-4 von Open AI ist das neueste generative Sprachmodell aus der GPT-Familie, entwickelt und trainiert von OpenAI. Es basiert wie die Vorgängermodelle auf der sogenannten Transformer-Architektur. Das Modell ist multimodal und versteht neben Texteingaben auch Bildeingaben.

Eine Forschungsarbeit von amerikanischen Computerwissenschaftler:innen der Brown Universität in Providence Rhode Island zeigt nun auf, wie die Sicherheitsvorkehrungen des Sprachmodells zu knacken sind.

GPT-4-Jailbreak: Forscher:innen rühmen sich mit Erfolgsquote

Die Forscher:innen rühmen sich in der Recherche sogar mit einer Erfolgsquote von 79 Prozent. Sie wollen einen Weg gefunden haben, den Jailbreak bei ChatGPT 4 so durchzuführen, dass es keine Schutzmechanismen mehr hat, die es daran hindern, potentiell gefährliche Ratschläge zu geben.

Empfehlungen der Redaktion

News

GPT-4 ist offiziell: OpenAI-KI wird mächtiger und multimodal

Briefing

Vier Wochen GPT‑4: Chatbots waren gestern

News

Wir lagen falsch: OpenAI-Mitgründer will KI-Forschung nicht mehr öffentlich betreiben

Das Search Engine Journal schreibt, dass der Ansatz als „Low-Resource Languages Jailbreak“ bezeichnet wird. Jailbreaking beschrieb demnach ursprünglich die Umgehung von iPhone-Softwarebeschränkungen, um verbotene Modifikationen freizuschalten.

Auf die KI von ChatGPT umgewandelt heißt das: Wie können die Sicherheitsvorkehrungen, die ChatGPT daran hindern, schädliche Informationen zu liefern, umgangen werden?

Forscher:innen bekamen Anweisungen für Diebstahl

Laut der Recherche gelang es den Forscher:innen, GPT-4 dazu zu bringen, etwa Anweisungen für einen Diebstahl in einem Geschäft zu geben. So wurde ihnen geraten, den Diebstahl auf Zeiten zu legen, in denen der Laden voll ist.

Die bestehenden Sicherheitsmaßnahmen für generative KI seien laut der Forschungsgruppe unzureichend. Die ChatGPT-Entwickler:innen hätten ihre Bemühungen auf die Abwehr von Angriffen zu sehr auf die englische Sprache fokussiert. Unbeabsichtigt habe das Schlupflöcher in „ressourcenarmen Sprachen“ geschaffen.

Ressourcenarme Sprachen sind laut dem Search Engine Journal Sprachen, in denen das große Sprachmodell keinem Sicherheitstraining unterzogen worden sei oder in denen die Daten nicht auf andere Sprachen verallgemeinert werden haben können.

Forscher:innen übersetzten unsichere Infos in zwölf Sprachen

Die Forscher:innen gingen wie folgt vor: Sie übersetzten potentiell schädliche Aufforderungen in zwölf Sprachen. Anschließend verglichen sie die Ergebnisse mit anderen bekannten Jailbreaking-Methoden.

Die Übersetzung schädlicher Aufforderungen etwa in Zulu und Schottisch-Gälisch hatte laut den Forscher:innen eine Erfolgsquote von fast 50 Prozent. Bei der Verwendung der englischen Originalaufforderungen habe die Erfolgsquote bei weniger als einem Prozent gelegen, so die Forscher:innen.

Andere ressourcenarme Sprachen waren fehlerresistenter. Bei der Verwendung von Hmong- und Guarani-Sprachen wurden laut der Recherche weniger erfolgreiche Ergebnisse erzielt, da sie lediglich unsinnige Antworten hervorriefen. In anderen Sprachen habe GPT-4 Übersetzungen der Aufforderungen ins Englische übersetzt.

GPT-4: Neue Datensätze für ressourcenarme Sprachen werden gebraucht

Ein Lösungsvorschlag der Recherche ist es demnach generell, robustere Schutzmechanismen zu schaffen, also neue Datensätze für ressourcenarme Sprachen zu erstellen. Laut der Forschergruppe vermittle die derzeitige Konzentration auf die englische Sprache ein falsches Gefühl der Sicherheit.

In ihrem Recherchepapier wiesen die Forscher:innen darauf hin, OpenAI über die sprachübergreifende GPT-4-Schwachstelle informiert zu haben, bevor sie diese Information öffentlich machten. Darüber hinaus äußerten sie die Hoffnung, dass diese Forschung zu robusteren Sicherheitsmaßnahmen führen wird und künftig mehr Sprachen berücksichtigt werden.

Mehr zu diesem Thema

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Kommentare (2)

Kommentieren

Astrid

15.10.2023, 08:41 Uhr

Womöglich wird es von den Forscher:Innen auch als Sicherheitslücke angesehen, dass Chat GPT nicht gendert

Robert

16.10.2023, 08:35 Uhr

Das tolle bei gut gemachtem Gendern (wie hier im Artikel) ist ja, dass das menschliche Gehirn das einfach „überliest“ und in verwertbare Informationen umwandelt. Also wenn genügend Kapazität vorhanden ist.

Brands

Themen

Magazine

Skills

GPT-4-Jailbreak überwindet Sicherheitsbarrieren in 79 Prozent der Fälle

GPT-4-Jailbreak: Forscher:innen rühmen sich mit Erfolgsquote

Forscher:innen bekamen Anweisungen für Diebstahl

Forscher:innen übersetzten unsichere Infos in zwölf Sprachen

GPT-4: Neue Datensätze für ressourcenarme Sprachen werden gebraucht