Anzeige
Anzeige
MIT Technology Review Feature

Merkwürdige GPT-4o-Antworten: Warum Tokenizer-Trainingsdaten für China voller Spam und Porno sind

Das jüngste Sprachmodell von OpenAI bringt zahlreiche Verbesserungen. Chinesische Nutzer haben aber ein Problem: Der sogenannte Tokenizer, der die Texteingaben verarbeitet, wurde mit problematischen Daten trainiert. Das hat Folgen.

Von MIT Technology Review Online
9 Min.
Artikel merken
Anzeige
Anzeige

In China lieferte die neue Version von OpenAIs Chatbot teilweise schlechtere Ergebnisse als vorher. (Bild: vectorsector / Bigstock)

Kurz nachdem OpenAI Mitte Mai mit großem Tamtam das große Sprachmodell (Large Language Model, LLM) GPT-4o veröffentlicht hatte, bemerkten einige chinesische Muttersprachler, dass mit dieser neuesten Version des Chatbots irgendetwas nicht stimmte: Die Ergebnisse waren teilweise schlechter als zuvor.

Anzeige
Anzeige

Des Rätsels Lösung kam durch einen Doktoranden an der Princeton University heraus: Tianle Cai, der sich mit der Effizienz großer Sprachmodelle beschäftigt, schaute sich die öffentliche Token-Bibliothek von GPT-4o näher an und entdeckte, dass OpenAI dort Mist gebaut hatte. In der Liste der 100 längsten chinesischsprachigen Token, die das Modell zum Parsen und Komprimieren chinesischer Prompts nutzte, befanden sich Nonsens-, Spam- und sogar pornografische Begriffe.

Menschen nehmen Sprache in Wörtern wahr. LLM lesen Prompts hingegen in Form von Token ein, also über eindeutigen Einheiten in einem Satz, die eine konsistente und signifikante Bedeutungen haben sollten. Neben Wörterbuchwörtern umfassen sie auch Suffixe, allgemein verwendete Ausdrücke, Namen und mehr. Je mehr Token ein Modell kodiert, desto schneller kann das Modell einen Satz „lesen“ und desto weniger Rechenleistung verbraucht es, was das Generieren der Antwort kostengünstiger macht.

Anzeige
Anzeige

Doch im chinesischsprachigen Tokenizer fanden sich bei den längsten 100 Ergebnissen nur ganze 3 aus der Alltagssprache. Alle anderen bestanden aus Wörtern und Ausdrücken, bei denen es sich entweder um bedeutungslose Phrasen handelt oder die speziell im Zusammenhang mit verbotenem Glücksspiel oder Pornografie verwendet werden. Das längste Token, das 10,5 chinesische Zeichen umfasst, bedeutet wörtlich übersetzt „_kostenloses japanisches Pornovideo zum Anschauen“. Sehr unschön. Dabei soll GPT-4o bei der Bewältigung von Prompts in unterschiedlichen Sprachen doch eigentlich besser sein als seine Vorgänger. „Das ist schon irgendwie lächerlich“, schrieb Cai und stellte die Liste der Token bei GitHub online. OpenAI antwortete bis zum Redaktionsschluss dieses Beitrags nicht auf Fragen zu dem Problem.

Eigentlich sollte für nicht-englische Sprachen alles besser werden

Da es sich bei diesen Token nicht um häufig verwendete Wörter handelt, kann der Chatbot ihre Bedeutung nicht erfassen. Forscher konnten das bereits ausnutzen und GPT-4o dazu bringen, Antworten zu halluzinieren oder sogar die von OpenAI eingerichteten Sicherheitsvorkehrungen zu umgehen.

Anzeige
Anzeige

Der einfachste Weg für ein Modell, Text zu verarbeiten, ist Zeichen für Zeichen. Aber das ist natürlich zeitaufwendiger und mühsamer als zu erkennen, dass eine bestimmte Zeichenfolge – beispielsweise „c-r-y-p-t-o-c-u-r-r-e-n-c-y“ – immer dasselbe bedeutet. Diese Zeichenfolgen werden als „Token“ kodiert, die das Modell zur Verarbeitung von Prompts verwenden kann. Die Einbeziehung von mehr und längeren Token bedeutet dabei in der Regel, dass die LLM effizienter und günstiger für die Benutzer sind, deren KI-Einsatz oft pro Token abgerechnet wird.

Mit der Vorstellung von GPT-4o am 13. Mai hat OpenAI den neuen Tokenizer veröffentlicht, der den in den Vorgängerversionen GPT-3.5 und GPT-4 verwendeten ersetzt. Die überarbeitete Variante unterstütze insbesondere stärker nicht-englische Sprachen, wie auf der Website von OpenAI zu lesen ist.

Anzeige
Anzeige

Neuer Tokenizer ist kostengünstiger – wenn er funktioniert

Der neue Tokenizer verfügt insgesamt über 200.000 Token. Etwa 25 Prozent davon sind Token in nicht-englischen Sprachen, so Deedy Das, KI-Investor bei Menlo Ventures, der Sprachfilter verwendet hat, um die Verteilung zu zählen. Die wichtigsten Sprachen neben Englisch sind demnach Russisch, Arabisch und Vietnamesisch.

„Meiner Meinung nach besteht der Haupteffekt des [neuen] Tokenizers darin, dass die Kosten in diesen Sprachen gesenkt werden, nicht dass die Qualität in diesen Sprachen dramatisch steigt“, sagt Das. Wenn ein LLM über bessere und längere Token in nicht-englischen Sprachen verfügt, kann es Prompts schneller analysieren und muss den Nutzern weniger für die gleiche Antwort berechnen. Mit dem neuen Tokenizer „könnte man die Kosten fast um das Vierfache senken“, so Das.

Der KI-Investor, der auch Hindi und Bengali spricht, hat sich die längsten Token in diesen Sprachen angeschaut – und OpenAI scheint meistens richtig zu liegen. Die Token spiegeln aktuelle Debatten in diesen Sprachen wider und enthalten daher Wörter wie „Narendra“ (für den Ministerpräsidenten) oder „Pakistan“ – aber auch gängige englische Begriffe wie „prime minister“, „university“ und „international“ kommen häufig vor. Sie weisen nicht die Probleme auf, die bei den chinesischen Token auftreten.

Anzeige
Anzeige

Das entspreche wahrscheinlich den Trainingsdaten in diesen Sprachen, sagt Das: „Meine Arbeitshypothese ist, dass die verwendeten Websites in Hindi und Bengali eher rudimentär sind. Es handelt sich [hauptsächlich] um Nachrichtenartikel. Ich würde also erwarten, dass dieses Ergebnis kommt.“ Es gebe nicht viele Spam-Bots und Porno-Websites, die versuchen, in diesen Sprachen zu agieren. „Das meiste wird auf Englisch sein.“

Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige