Anzeige
Anzeige
MIT Technology Review Analyse

Warum es so schwer ist, gute chinesische KI-Modelle zu bauen

Für Textgeneratoren braucht es gute Rohdaten. Doch die sind im chinesischen Internet vergleichsweise schwer zu finden. Das sorgt für Probleme.

Von MIT Technology Review Online
4 Min.
Artikel merken
Anzeige
Anzeige

Die Veröffentlichung von GPT-4o, einem neuen KI-„Omnimodell“, mit dem Sie per Sprache, Text oder Video interagieren können, in der vergangenen Woche sollte ein großer Moment für OpenAI sein. Doch nur wenige Tage später sieht es so aus, als ob das Unternehmen in großen Schwierigkeiten steckt. Nach dem Rücktritt eines Großteils des Sicherheitsteams und der Anschuldigung von Scarlett Johansson, dass ihre Stimme gegen ihr Einverständnis für das Modell nachgebildet wurde, befindet sich das Unternehmen nun im Modus der Schadensbegrenzung.

Anzeige
Anzeige

Hinzu kommt, dass OpenAI mit GPT-4o einen weiteren Fehler begangen hat: Die Daten, die zum Trainieren des Tokenizers verwendet wurden – ein Tool, das dem Modell hilft, Text effizienter zu analysieren und zu verarbeiten – sind durch chinesische Spam-Websites verseucht. Infolgedessen ist die chinesische Token-Bibliothek des Modells voll von Phrasen, die mit Pornografie und Glücksspiel zu tun haben. Dies könnte einige Probleme verschlimmern, die bei KI-Modellen häufig auftreten: Halluzinationen, schlechte Leistung und Missbrauch.

Ich habe am Freitag darüber geschrieben, nachdem mehrere Forscher und Insider der KI-Branche auf das Problem hingewiesen hatten. Sie warfen einen Blick auf die öffentliche Token-Bibliothek von GPT-4o, die mit dem neuen Modell erheblich aktualisiert wurde, um die Unterstützung nicht-englischer Sprachen zu verbessern, und stellten fest, dass mehr als 90 der 100 längsten chinesischen Token im Modell von Spam-Websites stammen. Dabei handelt es sich um Sätze wie „_Freies japanisches Porno-Video zum Anschauen“, „Peking-Rennwagen-Wetten“ und „Jeden Tag Wohlfahrtslotterie in China“.

Anzeige
Anzeige

Jeder, der Chinesisch liest, kann das Problem mit dieser Liste von Token sofort erkennen. Einige solcher Phrasen rutschen unweigerlich in die Trainingsdatensätze, weil Inhalte für Erwachsene online so beliebt sind, aber dass sie 90 % der chinesischen Sprache ausmachen, die zum Trainieren des Modells verwendet wird? Das ist beunruhigend.

„Für einen Chinesen ist das sehr peinlich. Liegt das nur an der Qualität der [chinesischen] Daten? Liegt es an der unzureichenden Datenbereinigung oder ist die Sprache einfach so?“, sagt Zhengyang Geng, Doktorand der Informatik an der Carnegie Mellon University.

Anzeige
Anzeige

Es könnte verlockend sein, von den Token, die OpenAI für GPT-4o ausgewählt hat, auf eine Sprache oder eine Kultur zu schließen. Schließlich handelt es sich dabei um häufig vorkommende und signifikante Phrasen aus den jeweiligen Sprachen. Es gibt einen interessanten Blogbeitrag eines in Hongkong ansässigen Forschers namens Henry Luo, der die längsten GPT-4o-Token in verschiedenen Sprachen abgefragt hat und feststellte, dass sie unterschiedliche Themen zu haben scheinen. Während die Token im Russischen die Sprache der Regierung und öffentlicher Institutionen widerspiegeln, gibt es im Japanischen viele verschiedene Möglichkeiten, „Danke“ zu sagen.

Ich denke aber, dass dies weniger die Unterschiede zwischen den Kulturen oder Ländern widerspiegelt, sondern vielmehr erklärt, welche Art von Trainingsdaten online verfügbar ist und welche Websites OpenAI durchforstet hat, um sie in GPT-4o einzuspeisen.

Anzeige
Anzeige

Nachdem ich den Artikel veröffentlicht hatte, kommentierte Victor Shih, ein Professor für Politikwissenschaften an der University of California, San Diego, diesen auf X: „Wenn man versucht, nicht auf den Inhalten der chinesischen Staatsmedien zu trainieren, bekommt man das hier.“

Das ist halb ein Witz und halb eine ernsthafte Aussage über die beiden größten Probleme beim Trainieren großer Sprachmodelle für die chinesische Sprache: Die online verfügbaren Daten spiegeln entweder die „offizielle“, sanktionierte Art und Weise wider, wie über China gesprochen wird, oder die allgegenwärtigen Spam-Inhalte, die echte Unterhaltungen überlagern.

Tatsächlich sind unter den wenigen langen chinesischen Token in GPT-4o, bei denen es sich nicht um Pornografie oder Glücksspiel-Unsinn handelt, zwei: „Sozialismus mit chinesischen Merkmalen“ und „Volksrepublik China“. Das Vorhandensein dieser Ausdrücke deutet darauf hin, dass ein erheblicher Teil der Trainingsdaten tatsächlich aus chinesischen Staatsmedien stammt, in denen formale, lange Ausdrücke äußerst üblich sind.

Anzeige
Anzeige

OpenAI hat sich in der Vergangenheit sehr bedeckt gehalten, was die Daten angeht, die es zum Trainieren seiner Modelle verwendet, und wird uns wahrscheinlich nie sagen, wie viel von seiner chinesischen Trainingsdatenbank aus staatlichen Medien und wie viel aus Spam besteht. (OpenAI hat auf die detaillierten Fragen der MIT Technology Review vom Freitag nicht geantwortet).

Aber es ist nicht das einzige Unternehmen, das mit diesem Problem kämpft. Menschen in China, die in der KI-Industrie arbeiten, sind sich einig, dass es an hochwertigen chinesischen Textdatensätzen für das Training von LLMs mangelt. Ein Grund dafür ist, dass das chinesische Internet in der Vergangenheit von großen Unternehmen wie Tencent und ByteDance aufgeteilt wurde und auch heute noch wird. Ihnen gehören die meisten sozialen Plattformen und sie werden ihre Daten nicht mit Wettbewerbern oder Dritten teilen, um LLMs zu trainieren.

Das ist auch der Grund, warum Suchmaschinen, einschließlich Google, bei der Suche auf Chinesisch so schlecht abschneiden. Da WeChat-Inhalte nur auf WeChat gesucht werden können und Inhalte auf Douyin (dem chinesischen TikTok) nur auf Douyin gesucht werden können, sind diese Daten für eine Drittanbieter-Suchmaschine nicht zugänglich, geschweige denn für ein LLM. Dies sind jedoch die Plattformen, auf denen tatsächlich menschliche Gespräche stattfinden, und nicht irgendwelche Spam-Websites, die versuchen, Sie zu Online-Glücksspielen zu verleiten.

Anzeige
Anzeige

Der Mangel an qualitativ hochwertigen Trainingsdaten ist ein viel größeres Problem als das Versäumnis, die Pornos und den allgemeinen Unsinn in den Token-Trainingsdaten von GPT-4o herauszufiltern. Wenn es keinen vorhandenen Datensatz gibt, müssen KI-Unternehmen viel Arbeit investieren, um ihre eigenen Datensätze zu identifizieren, zu beschaffen und zu kuratieren und unangemessene oder voreingenommene Inhalte herauszufiltern.

OpenAI scheint das nicht getan zu haben, was fairerweise auch Sinn macht, wenn man bedenkt, dass die Menschen in China die KI-Modelle ohnehin nicht nutzen können.

Dennoch gibt es viele Menschen, die außerhalb Chinas leben und KI-Dienste in chinesischer Sprache nutzen wollen. Und sie verdienen ein Produkt, das genauso gut funktioniert wie die Sprecher jeder anderen Sprache.

Dieser Artikel stammt von Zeyi Yang. Er ist Reporter bei der US-amerikanischen MIT Technology Review. Yang deckt Technologien in China und Ostasien ab.
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige