GPT-4-Jailbreak überwindet Sicherheitsbarrieren in 79 Prozent der Fälle
GPT-4 von Open AI ist das neueste generative Sprachmodell aus der GPT-Familie, entwickelt und trainiert von OpenAI. Es basiert wie die Vorgängermodelle auf der sogenannten Transformer-Architektur. Das Modell ist multimodal und versteht neben Texteingaben auch Bildeingaben.
Eine Forschungsarbeit von amerikanischen Computerwissenschaftler:innen der Brown Universität in Providence Rhode Island zeigt nun auf, wie die Sicherheitsvorkehrungen des Sprachmodells zu knacken sind.
GPT-4-Jailbreak: Forscher:innen rühmen sich mit Erfolgsquote
Die Forscher:innen rühmen sich in der Recherche sogar mit einer Erfolgsquote von 79 Prozent. Sie wollen einen Weg gefunden haben, den Jailbreak bei ChatGPT 4 so durchzuführen, dass es keine Schutzmechanismen mehr hat, die es daran hindern, potentiell gefährliche Ratschläge zu geben.
Das Search Engine Journal schreibt, dass der Ansatz als „Low-Resource Languages Jailbreak“ bezeichnet wird. Jailbreaking beschrieb demnach ursprünglich die Umgehung von iPhone-Softwarebeschränkungen, um verbotene Modifikationen freizuschalten.
Auf die KI von ChatGPT umgewandelt heißt das: Wie können die Sicherheitsvorkehrungen, die ChatGPT daran hindern, schädliche Informationen zu liefern, umgangen werden?
Forscher:innen bekamen Anweisungen für Diebstahl
Laut der Recherche gelang es den Forscher:innen, GPT-4 dazu zu bringen, etwa Anweisungen für einen Diebstahl in einem Geschäft zu geben. So wurde ihnen geraten, den Diebstahl auf Zeiten zu legen, in denen der Laden voll ist.
Die bestehenden Sicherheitsmaßnahmen für generative KI seien laut der Forschungsgruppe unzureichend. Die ChatGPT-Entwickler:innen hätten ihre Bemühungen auf die Abwehr von Angriffen zu sehr auf die englische Sprache fokussiert. Unbeabsichtigt habe das Schlupflöcher in „ressourcenarmen Sprachen“ geschaffen.
Ressourcenarme Sprachen sind laut dem Search Engine Journal Sprachen, in denen das große Sprachmodell keinem Sicherheitstraining unterzogen worden sei oder in denen die Daten nicht auf andere Sprachen verallgemeinert werden haben können.
Forscher:innen übersetzten unsichere Infos in zwölf Sprachen
Die Forscher:innen gingen wie folgt vor: Sie übersetzten potentiell schädliche Aufforderungen in zwölf Sprachen. Anschließend verglichen sie die Ergebnisse mit anderen bekannten Jailbreaking-Methoden.
Die Übersetzung schädlicher Aufforderungen etwa in Zulu und Schottisch-Gälisch hatte laut den Forscher:innen eine Erfolgsquote von fast 50 Prozent. Bei der Verwendung der englischen Originalaufforderungen habe die Erfolgsquote bei weniger als einem Prozent gelegen, so die Forscher:innen.
Andere ressourcenarme Sprachen waren fehlerresistenter. Bei der Verwendung von Hmong- und Guarani-Sprachen wurden laut der Recherche weniger erfolgreiche Ergebnisse erzielt, da sie lediglich unsinnige Antworten hervorriefen. In anderen Sprachen habe GPT-4 Übersetzungen der Aufforderungen ins Englische übersetzt.
GPT-4: Neue Datensätze für ressourcenarme Sprachen werden gebraucht
Ein Lösungsvorschlag der Recherche ist es demnach generell, robustere Schutzmechanismen zu schaffen, also neue Datensätze für ressourcenarme Sprachen zu erstellen. Laut der Forschergruppe vermittle die derzeitige Konzentration auf die englische Sprache ein falsches Gefühl der Sicherheit.
In ihrem Recherchepapier wiesen die Forscher:innen darauf hin, OpenAI über die sprachübergreifende GPT-4-Schwachstelle informiert zu haben, bevor sie diese Information öffentlich machten. Darüber hinaus äußerten sie die Hoffnung, dass diese Forschung zu robusteren Sicherheitsmaßnahmen führen wird und künftig mehr Sprachen berücksichtigt werden.
Womöglich wird es von den Forscher:Innen auch als Sicherheitslücke angesehen, dass Chat GPT nicht gendert
Das tolle bei gut gemachtem Gendern (wie hier im Artikel) ist ja, dass das menschliche Gehirn das einfach „überliest“ und in verwertbare Informationen umwandelt. Also wenn genügend Kapazität vorhanden ist.