Merkwürdige GPT-4o-Antworten: Warum Tokenizer-Trainingsdaten für China voller Spam und Porno sind
Schmutzige Daten und mangelnde Bereinigung
Im Chinesischen sieht die Sache jedoch ganz anders aus. Laut mehreren Forschern, die die neue Token-Bibliothek für GPT-4o untersucht haben, handelt es sich bei den längsten Token im Chinesischen fast ausschließlich um besagte Spam-Wörter, die im Zusammenhang mit Pornografie, Glücksspiel und sogar Betrug verwendet werden. Selbst kürzere Token, wie chinesische Wörter mit drei Zeichen Länge, spiegeln diese Themen in hohem Maße wider.
„Das Problem liegt auf der Hand: Der Korpus, der zum Trainieren [des Tokenizers] verwendet wurde, ist nicht sauber. Die englischen Token scheinen in Ordnung zu sein, aber die chinesischen sind es nicht“, sagt Cai von der Princeton University. Es komme nicht selten vor, dass ein Sprachmodell beim Sammeln von Trainingsdaten auf Spam stößt, aber normalerweise würden erhebliche Anstrengungen unternommen, um die Daten zu bereinigen. „Es ist möglich, dass sie die Daten für Chinesisch nicht richtig gesäubert haben“, sagt er.
Der Inhalt dieser chinesischen Token könnte darauf hindeuten, dass sie durch ein bestimmtes Phänomen verunreinigt wurden: Websites, die reguläre Inhalte auf Chinesisch oder anderen Sprachen „kapern“, um Spam-Nachrichten zu verbreiten.
Bei diesen Nachrichten handelt es sich häufig um Werbung für pornografische Videos und Glücksspiel-Websites. Dabei kann es sich um tatsächliche Unternehmen oder um Betrügereien handeln. Solche Phrasen werden in Content-Farm-Websites, die Suchmaschinen austricksen sollen, und manchmal auch in legitime Websites eingefügt, um Filter zu umgehen. So hat Google beispielsweise eine Suchergebnisseite auf einer Website der US National Institutes of Health indexiert, auf der eine Pornoseite in chinesischer Sprache aufgeführt wurde. Derselbe Website-Name erschien übrigens auch in mindestens fünf chinesischsprachigen Token in GPT-4o.
Angriffsformen wie Jailbreak möglich
Chinesische Nutzer berichteten bereits, dass solche Spam-Websites in diesem Jahr häufig in unzusammenhängenden Google-Suchergebnissen auftauchten – auch in Kommentaren an die Support-Community von Google Search. Es ist wahrscheinlich, dass diese Websites dann auch ihren Weg in die Trainingsdaten von OpenAI für den neuen Tokenizer von GPT-4o gefunden haben.
Das gleiche Problem gab es bei der vorherigen Generation des Tokenizers allerdings nicht. Bei GPT-3.5 und GPT-4 sei alles sauber, so Zhengyang Geng, Doktorand der Computerwissenschaften an der Carnegie Mellon University. Dort waren die längsten chinesischen Token gängige Begriffe wie „Lebenszyklen“ oder „automatische Generierung“.
KI-Investor Das, der drei Jahre lang im Google-Search-Team gearbeitet hat, meint, dass die Verbreitung von Spam-Inhalten ein bekanntes Problem ist, das nicht so schwer zu beheben sei. „Für jedes Spam-Problem gibt es eine Lösung. Und man muss nicht alles mit einer einzigen Technik abdecken.“ Selbst einfache Lösungen wie die Anforderung einer automatischen Übersetzung des Inhalts bei der Erkennung bestimmter Schlüsselwörter könnten „in 60 Prozent der Fälle zum Ziel führen“, fügt er hinzu.
OpenAI habe wahrscheinlich die chinesischen Trainingsdaten oder die Token vor der Veröffentlichung von GPT-4o einfach nicht bereinigt, sagt Das: „Letztlich glaube ich nicht, dass sie in diesem Fall ihren Job gemacht haben.“ Derzeit ist unklar, ob auch andere Sprachen betroffen sind. Ein X-Benutzer berichtete allerdings, dass in koreanischen Token ähnlich viele Porno- und Glücksspielinhalte enthalten sind.
User haben auch festgestellt, dass die problematischen Token dazu verwendet werden können, einen Jailbreak des LLM durchzuführen. Damit kann man das Modell entweder dazu bringen, völlig zusammenhanglose Antworten auszuspucken oder in seltenen Fällen Inhalte zu generieren, die nach den Sicherheitsstandards von OpenAI nicht erlaubt sein sollten.
Geng von der Carnegie Mellon University bat GPT-4o bereits, einige der langen chinesischen Spam-Token ins Englische zu übersetzen. Das Modell übersetzte daraufhin Wörter, die nie im Prompt enthalten waren, ein typischer Fall von LLM-Halluzinationen.