Anzeige
Anzeige
MIT Technology Review Feature

Merkwürdige GPT-4o-Antworten: Warum Tokenizer-Trainingsdaten für China voller Spam und Porno sind

Von MIT Technology Review Online
Seite 3 / 3
Anzeige
Anzeige

Die Token sollten besser sein

Dem Computerwissenschaftler gelang es selbst bereits, mit denselben Token GPT-4o zu jailbreaken, also das Modell dazu zu bringen, Inhalte zu erzeugen, die es nicht erzeugen sollte. „Es ist ziemlich einfach, diese [selten verwendeten] Token zu nutzen, um dem LLM ein undefiniertes Verhalten zu entlocken“, sagt Geng. „Ich habe einige eigene Red-Teaming-Experimente durchgeführt.“ Das einfachste Beispiel sei, das Modell zu bitten, eine Bombe zu bauen. Unter normalen Umständen würde es sich weigern, aber wenn man zunächst besagte Token verwendet, um einen Jailbreak hervorzurufen, folgt es plötzlich den verbotenen Befehlen. „Sobald [GPT-4o] anfängt, Ihnen zu folgen, können Sie ihm alle möglichen Fragen stellen.“

Anzeige
Anzeige

In seinen Tests, die Geng bislang nicht mit der Öffentlichkeit teilen möchte, könne er sehen, wie GPT-4o die Antworten Zeile für Zeile generiert. Doch wenn das LLM fast am Ende angelangt ist, greift ein weiterer Sicherheitsmechanismus, der unsichere Inhalte erkennt und verhindert, dass sie dem Benutzer angezeigt werden.

Dieses Phänomen ist bei LLM nicht ungewöhnlich, sagt Sander Land, Experte für maschinelles Lernen bei Cohere, einem kanadischen KI-Unternehmen. Land und sein Kollege Max Bartolo haben vor Kurzem ein Paper darüber verfasst, wie man ungewöhnliche Token erkennt, die dazu verwendet werden können, Modelle aus dem Tritt zu bringen. Eines der bekanntesten Beispiele war „_SolidGoldMagikarp“, ein Reddit-Benutzername, der ChatGPT dazu brachte, zusammenhanglose, merkwürdige oder verbotene (weil problematische) Antworten zu generieren.

Anzeige
Anzeige

Das Grundproblem liegt dabei darin, dass Tokenizer und LLM manchmal mit unterschiedlichen Datensätzen trainiert werden, und was im Tokenizer-Datensatz vorherrschte, ist dann aus irgendeinem Grund nicht im LLM-Datensatz enthalten. Das Ergebnis ist, dass der Tokenizer zwar bestimmte Wörter aufgreift, die er häufig sieht, das Modell aber nicht ausreichend auf sie trainiert ist und nie vollständig versteht, was diese „untertrainierten“ Token bedeuten. Im Fall von „_SolidGoldMagikarp“ war der Benutzername wahrscheinlich in den Trainingsdaten des Tokenizers enthalten, aber nicht in den tatsächlichen Trainingsdaten des GPT-System, sodass es nicht wusste, was es mit dem Token anfangen soll. „Und wenn das System etwas sagen soll, erhält es eine Art Zufallssignal und es kann dann wirklich seltsame Dinge tun“, sagt Land.

Was ist mit visuellen Daten?

Hinzu kommt: Verschiedene Modelle könnten in dieser Situation unterschiedlich reagieren. Metas Llama 3 halluziniert über leere Räume, die nicht existieren. Googles Gemini schreibt plötzlich über El Nino, obwohl man danach gar nicht gefragt hat, aber bestimmte Token verwendet.

Anzeige
Anzeige

Um diese Probleme zu lösen, sollte der Datensatz, der für das Training des Tokenizers verwendet wird, den Datensatz für das LLM gut repräsentieren, sagt er, damit es keine Unstimmigkeiten zwischen ihnen gibt. Wenn das eigentliche Modell Sicherheitsfilter durchlaufen hat, um Porno- oder Spam-Inhalte herauszufiltern, sollten dieselben Filter auch auf die Tokenizer-Daten angewendet werden. In der Praxis ist das manchmal schwer zu bewerkstelligen, da das Training von LLM Monate dauert. Dabei wird es ständig verbessert und Spam-Inhalte lassen sich herausfiltern – während das Token-Training in der Regel in einem frühen Stadium erfolgt und möglicherweise nicht dasselbe Maß an Filterung beinhaltet.

Experten sind sich zwar einig, dass es nicht allzu schwer ist, das Phänomen zu verhindern. Aber es könnte kompliziert werden, wenn das Ergebnis in mehrstufige modellinterne Prozesse eingebunden wird oder wenn die verunreinigten Token und Modelle in zukünftige Iterationen übernommen werden. So weiß noch niemand, ob es Auswirkungen auf die viel gepriesenen Video- und Audiofunktionen gibt, die Teil von GPT-4o sind, aber noch nicht öffentlich getestet werden können. Werden die merkwürdigen Token in Chinesisch hier auch zu Fehlern führen oder Jailbreaks ermöglichen?

Anzeige
Anzeige

„Die Robustheit von visuellen Eingaben ist bei multimodalen Modellen schlechter als bei Texteingaben“, sagt Geng, dessen Forschungsschwerpunkt auf auch auf solchen Modellen liegt. Das Filtern eines Textdatensatzes sei relativ einfach, aber das Filtern von visuellen Elementen noch schwierig. „Das gleiche Problem wie bei den chinesischen Spam-Token könnte bei visuellen Token noch größer sein“, fürchtet er.

Dieser Artikel stammt von Zeyi Yang. Er ist Reporter bei der US-amerikanischen MIT Technology Review. Yang deckt Technologien in China und Ostasien ab.
Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige