Merkwürdige GPT-4o-Antworten: Warum Tokenizer-Trainingsdaten für China voller Spam und Porno sind
Kurz nachdem OpenAI Mitte Mai mit großem Tamtam das große Sprachmodell (Large Language Model, LLM) GPT-4o veröffentlicht hatte, bemerkten einige chinesische Muttersprachler, dass mit dieser neuesten Version des Chatbots irgendetwas nicht stimmte: Die Ergebnisse waren teilweise schlechter als zuvor.
Des Rätsels Lösung kam durch einen Doktoranden an der Princeton University heraus: Tianle Cai, der sich mit der Effizienz großer Sprachmodelle beschäftigt, schaute sich die öffentliche Token-Bibliothek von GPT-4o näher an und entdeckte, dass OpenAI dort Mist gebaut hatte. In der Liste der 100 längsten chinesischsprachigen Token, die das Modell zum Parsen und Komprimieren chinesischer Prompts nutzte, befanden sich Nonsens-, Spam- und sogar pornografische Begriffe.
Menschen nehmen Sprache in Wörtern wahr. LLM lesen Prompts hingegen in Form von Token ein, also über eindeutigen Einheiten in einem Satz, die eine konsistente und signifikante Bedeutungen haben sollten. Neben Wörterbuchwörtern umfassen sie auch Suffixe, allgemein verwendete Ausdrücke, Namen und mehr. Je mehr Token ein Modell kodiert, desto schneller kann das Modell einen Satz „lesen“ und desto weniger Rechenleistung verbraucht es, was das Generieren der Antwort kostengünstiger macht.
Doch im chinesischsprachigen Tokenizer fanden sich bei den längsten 100 Ergebnissen nur ganze 3 aus der Alltagssprache. Alle anderen bestanden aus Wörtern und Ausdrücken, bei denen es sich entweder um bedeutungslose Phrasen handelt oder die speziell im Zusammenhang mit verbotenem Glücksspiel oder Pornografie verwendet werden. Das längste Token, das 10,5 chinesische Zeichen umfasst, bedeutet wörtlich übersetzt „_kostenloses japanisches Pornovideo zum Anschauen“. Sehr unschön. Dabei soll GPT-4o bei der Bewältigung von Prompts in unterschiedlichen Sprachen doch eigentlich besser sein als seine Vorgänger. „Das ist schon irgendwie lächerlich“, schrieb Cai und stellte die Liste der Token bei GitHub online. OpenAI antwortete bis zum Redaktionsschluss dieses Beitrags nicht auf Fragen zu dem Problem.
Eigentlich sollte für nicht-englische Sprachen alles besser werden
Da es sich bei diesen Token nicht um häufig verwendete Wörter handelt, kann der Chatbot ihre Bedeutung nicht erfassen. Forscher konnten das bereits ausnutzen und GPT-4o dazu bringen, Antworten zu halluzinieren oder sogar die von OpenAI eingerichteten Sicherheitsvorkehrungen zu umgehen.
Der einfachste Weg für ein Modell, Text zu verarbeiten, ist Zeichen für Zeichen. Aber das ist natürlich zeitaufwendiger und mühsamer als zu erkennen, dass eine bestimmte Zeichenfolge – beispielsweise „c-r-y-p-t-o-c-u-r-r-e-n-c-y“ – immer dasselbe bedeutet. Diese Zeichenfolgen werden als „Token“ kodiert, die das Modell zur Verarbeitung von Prompts verwenden kann. Die Einbeziehung von mehr und längeren Token bedeutet dabei in der Regel, dass die LLM effizienter und günstiger für die Benutzer sind, deren KI-Einsatz oft pro Token abgerechnet wird.
Mit der Vorstellung von GPT-4o am 13. Mai hat OpenAI den neuen Tokenizer veröffentlicht, der den in den Vorgängerversionen GPT-3.5 und GPT-4 verwendeten ersetzt. Die überarbeitete Variante unterstütze insbesondere stärker nicht-englische Sprachen, wie auf der Website von OpenAI zu lesen ist.
Neuer Tokenizer ist kostengünstiger – wenn er funktioniert
Der neue Tokenizer verfügt insgesamt über 200.000 Token. Etwa 25 Prozent davon sind Token in nicht-englischen Sprachen, so Deedy Das, KI-Investor bei Menlo Ventures, der Sprachfilter verwendet hat, um die Verteilung zu zählen. Die wichtigsten Sprachen neben Englisch sind demnach Russisch, Arabisch und Vietnamesisch.
„Meiner Meinung nach besteht der Haupteffekt des [neuen] Tokenizers darin, dass die Kosten in diesen Sprachen gesenkt werden, nicht dass die Qualität in diesen Sprachen dramatisch steigt“, sagt Das. Wenn ein LLM über bessere und längere Token in nicht-englischen Sprachen verfügt, kann es Prompts schneller analysieren und muss den Nutzern weniger für die gleiche Antwort berechnen. Mit dem neuen Tokenizer „könnte man die Kosten fast um das Vierfache senken“, so Das.
Der KI-Investor, der auch Hindi und Bengali spricht, hat sich die längsten Token in diesen Sprachen angeschaut – und OpenAI scheint meistens richtig zu liegen. Die Token spiegeln aktuelle Debatten in diesen Sprachen wider und enthalten daher Wörter wie „Narendra“ (für den Ministerpräsidenten) oder „Pakistan“ – aber auch gängige englische Begriffe wie „prime minister“, „university“ und „international“ kommen häufig vor. Sie weisen nicht die Probleme auf, die bei den chinesischen Token auftreten.
Das entspreche wahrscheinlich den Trainingsdaten in diesen Sprachen, sagt Das: „Meine Arbeitshypothese ist, dass die verwendeten Websites in Hindi und Bengali eher rudimentär sind. Es handelt sich [hauptsächlich] um Nachrichtenartikel. Ich würde also erwarten, dass dieses Ergebnis kommt.“ Es gebe nicht viele Spam-Bots und Porno-Websites, die versuchen, in diesen Sprachen zu agieren. „Das meiste wird auf Englisch sein.“