Anzeige
Anzeige
News

GPT-4-Jailbreak überwindet Sicherheitsbarrieren in 79 Prozent der Fälle

Laut einer Recherche von amerikanischen Forscher:innen können Sicherheitsvorkehrungen von GPT-4 erstaunlich oft umgangen werden. Dabei haben sie einen neuen Weg gefunden.

Von Jannik Schneider
2 Min.
Artikel merken
Anzeige
Anzeige
Laut einer amerikanischen Forschergruppe gibt es bei GPT-4 Sicherheitsmängel (Foto: Tada Images/Shutterstock).

GPT-4 von Open AI ist das neueste generative Sprachmodell aus der GPT-Familie, entwickelt und trainiert von OpenAI. Es basiert wie die Vorgängermodelle auf der sogenannten Transformer-Architektur. Das Modell ist multimodal und versteht neben Texteingaben auch Bildeingaben.

Anzeige
Anzeige

Eine Forschungsarbeit von amerikanischen Computerwissenschaftler:innen der Brown Universität in Providence Rhode Island zeigt nun auf, wie die Sicherheitsvorkehrungen des Sprachmodells zu knacken sind.

GPT-4-Jailbreak: Forscher:innen rühmen sich mit Erfolgsquote

Die Forscher:innen rühmen sich in der Recherche sogar mit einer Erfolgsquote von 79 Prozent. Sie wollen einen Weg gefunden haben, den Jailbreak bei ChatGPT 4 so durchzuführen, dass es keine Schutzmechanismen mehr hat, die es daran hindern, potentiell gefährliche Ratschläge zu geben.

Anzeige
Anzeige

Das Search Engine Journal schreibt, dass der Ansatz als „Low-Resource Languages Jailbreak“ bezeichnet wird. Jailbreaking beschrieb demnach ursprünglich die Umgehung von iPhone-Softwarebeschränkungen, um verbotene Modifikationen freizuschalten.

Auf die KI von ChatGPT umgewandelt heißt das: Wie können die Sicherheitsvorkehrungen, die ChatGPT daran hindern, schädliche Informationen zu liefern, umgangen werden?

Anzeige
Anzeige

Forscher:innen bekamen Anweisungen für Diebstahl

Laut der Recherche gelang es den Forscher:innen, GPT-4 dazu zu bringen, etwa Anweisungen für einen Diebstahl in einem Geschäft zu geben. So wurde ihnen geraten, den Diebstahl auf Zeiten zu legen, in denen der Laden voll ist.

Die bestehenden Sicherheitsmaßnahmen für generative KI seien laut der Forschungsgruppe unzureichend. Die ChatGPT-Entwickler:innen hätten ihre Bemühungen auf die Abwehr von Angriffen zu sehr auf die englische Sprache fokussiert. Unbeabsichtigt habe das Schlupflöcher in „ressourcenarmen Sprachen“ geschaffen.

Anzeige
Anzeige

Ressourcenarme Sprachen sind laut dem Search Engine Journal Sprachen, in denen das große Sprachmodell keinem Sicherheitstraining unterzogen worden sei oder in denen die Daten nicht auf andere Sprachen verallgemeinert werden haben können.

Forscher:innen übersetzten unsichere Infos in zwölf Sprachen

Die Forscher:innen gingen wie folgt vor: Sie übersetzten potentiell schädliche Aufforderungen in zwölf Sprachen. Anschließend verglichen sie die Ergebnisse mit anderen bekannten Jailbreaking-Methoden.

Die Übersetzung schädlicher Aufforderungen etwa in Zulu und Schottisch-Gälisch hatte laut den Forscher:innen eine Erfolgsquote von fast 50 Prozent. Bei der Verwendung der englischen Originalaufforderungen habe die Erfolgsquote bei weniger als einem Prozent gelegen, so die Forscher:innen.

Anzeige
Anzeige

Andere ressourcenarme Sprachen waren fehlerresistenter. Bei der Verwendung von Hmong- und Guarani-Sprachen wurden laut der Recherche weniger erfolgreiche Ergebnisse erzielt, da sie lediglich unsinnige Antworten hervorriefen. In anderen Sprachen habe GPT-4 Übersetzungen der Aufforderungen ins Englische übersetzt.

GPT-4: Neue Datensätze für ressourcenarme Sprachen werden gebraucht

Ein Lösungsvorschlag der Recherche ist es demnach generell, robustere Schutzmechanismen zu schaffen, also neue Datensätze für ressourcenarme Sprachen zu erstellen. Laut der Forschergruppe vermittle die derzeitige Konzentration auf die englische Sprache ein falsches Gefühl der Sicherheit.

Anzeige
Anzeige

In ihrem Recherchepapier wiesen die Forscher:innen darauf hin, OpenAI über die sprachübergreifende GPT-4-Schwachstelle informiert zu haben, bevor sie diese Information öffentlich machten. Darüber hinaus äußerten sie die Hoffnung,  dass diese Forschung zu robusteren Sicherheitsmaßnahmen führen wird und künftig mehr Sprachen berücksichtigt werden.

Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare (2)

Community-Richtlinien

Astrid

Womöglich wird es von den Forscher:Innen auch als Sicherheitslücke angesehen, dass Chat GPT nicht gendert

Robert

Das tolle bei gut gemachtem Gendern (wie hier im Artikel) ist ja, dass das menschliche Gehirn das einfach „überliest“ und in verwertbare Informationen umwandelt. Also wenn genügend Kapazität vorhanden ist.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige