ChatGPT und ähnliche KI-Chatbots verfügen über Sicherheitsmechanismen, die darauf abzielen, die Weitergabe schädlicher Informationen zu verhindern. So ist es ChatGPT beispielsweise nicht gestattet, Anleitungen zum Bau einer Bombe, haltlose Verschwörungstheorien, Methoden zum Einbruch in ein Haus oder zum Begehen von anderen Verbrechen preiszugeben.
Forscher der Brown University in den USA haben jedoch eine Schwachstelle in diesen Sicherheitsmechanismen entdeckt. Es hat sich gezeigt, dass ChatGPT durch die Verwendung von weniger verbreiteten Sprachen, zu denen nur wenige Trainingsdaten existieren, wie Schottisch-Gälisch, Zulu oder Hmong, überlistet werden kann.
Per Google Translate um die Sicherheitsmaßnahmen herum
Die Forscher haben schädliche Eingabeaufforderungen zunächst mit Googles frei verfügbarem Übersetzungs-API in eine der weniger verbreiteten Sprachen übersetzt, den übersetzten Prompt an ChatGPT 4 gesendet und dessen Antwort anschließend wieder ins Englische übersetzt.
Das Vorgehen wurde mit 520 verschiedenen Prompts durchgeführt. Dabei gelang es ihnen in 79 Prozent der Fälle, die Sicherheitsmaßnahmen des Chatbots zu umgehen, heißt es in dem Paper, das auf dem Preprint-Server ArXiv veröffentlicht wurde.
Zum Vergleich: Als die gleichen Prompts in englischer Sprache an ChatGPT gesendet wurden, weigerte sich der Chatbot in 99 Prozent der Fälle, zu antworten.
Der Chatbot hat bei den weniger häufig gesprochenen Sprachen eher dazu geneigt, auf Prompts zu Terrorismus, Finanzkriminalität oder Fehlinformationen zu reagieren, während er auf Themen wie sexuellen Kindesmissbrauch weniger ansprach.
Antworten nicht immer hilfreich
Obwohl es den Forschern gelang, die Sicherheitsmechanismen des Chatbots in einigen Fällen zu umgehen, waren die Antworten in diesen selten gesprochenen Sprachen nicht immer sinnvoll. Das könnte daran liegen, dass für diese Sprachen einfach weniger Trainingsdaten zur Verfügung stehen. Die Entdeckung stellt dennoch eine ernstzunehmende Sicherheitslücke dar.
Laut einem Bericht von The Register ist sich OpenAI des Papers bewusst und plant, die darin enthaltenen Erkenntnisse in Betracht zu ziehen. Allerdings bleibt noch unklar, wie genau diese Sicherheitslücke geschlossen werden kann.