Warum es so schwer ist, gute chinesische KI-Modelle zu bauen

MIT Technology Review Analyse

Für Textgeneratoren braucht es gute Rohdaten. Doch die sind im chinesischen Internet vergleichsweise schwer zu finden. Das sorgt für Probleme.

Von MIT Technology Review Online

14.06.2024, 13:15 Uhr • 4 Min.

Warum es so schwer ist, gute chinesische KI-Modelle zu bauen

Die Veröffentlichung von GPT-4o, einem neuen KI-„Omnimodell“, mit dem Sie per Sprache, Text oder Video interagieren können, in der vergangenen Woche sollte ein großer Moment für OpenAI sein. Doch nur wenige Tage später sieht es so aus, als ob das Unternehmen in großen Schwierigkeiten steckt. Nach dem Rücktritt eines Großteils des Sicherheitsteams und der Anschuldigung von Scarlett Johansson, dass ihre Stimme gegen ihr Einverständnis für das Modell nachgebildet wurde, befindet sich das Unternehmen nun im Modus der Schadensbegrenzung.

Hinzu kommt, dass OpenAI mit GPT-4o einen weiteren Fehler begangen hat: Die Daten, die zum Trainieren des Tokenizers verwendet wurden – ein Tool, das dem Modell hilft, Text effizienter zu analysieren und zu verarbeiten – sind durch chinesische Spam-Websites verseucht. Infolgedessen ist die chinesische Token-Bibliothek des Modells voll von Phrasen, die mit Pornografie und Glücksspiel zu tun haben. Dies könnte einige Probleme verschlimmern, die bei KI-Modellen häufig auftreten: Halluzinationen, schlechte Leistung und Missbrauch.

Empfehlungen der Redaktion

MIT Technology Review Feature

Merkwürdige GPT-4o-Antworten: Warum Tokenizer-Trainingsdaten für China voller Spam und Porno sind

MIT Technology Review Analyse

Apple Intelligence: Wie das Unternehmen eure Daten schützen will – und wo es noch Zweifel gibt

MIT Technology Review News

Können Maschinen lügen? Wie KI-Modelle die Kunst der Täuschung lernen

Ich habe am Freitag darüber geschrieben, nachdem mehrere Forscher und Insider der KI-Branche auf das Problem hingewiesen hatten. Sie warfen einen Blick auf die öffentliche Token-Bibliothek von GPT-4o, die mit dem neuen Modell erheblich aktualisiert wurde, um die Unterstützung nicht-englischer Sprachen zu verbessern, und stellten fest, dass mehr als 90 der 100 längsten chinesischen Token im Modell von Spam-Websites stammen. Dabei handelt es sich um Sätze wie „_Freies japanisches Porno-Video zum Anschauen“, „Peking-Rennwagen-Wetten“ und „Jeden Tag Wohlfahrtslotterie in China“.

Jeder, der Chinesisch liest, kann das Problem mit dieser Liste von Token sofort erkennen. Einige solcher Phrasen rutschen unweigerlich in die Trainingsdatensätze, weil Inhalte für Erwachsene online so beliebt sind, aber dass sie 90 % der chinesischen Sprache ausmachen, die zum Trainieren des Modells verwendet wird? Das ist beunruhigend.

„Für einen Chinesen ist das sehr peinlich. Liegt das nur an der Qualität der [chinesischen] Daten? Liegt es an der unzureichenden Datenbereinigung oder ist die Sprache einfach so?“, sagt Zhengyang Geng, Doktorand der Informatik an der Carnegie Mellon University.

Es könnte verlockend sein, von den Token, die OpenAI für GPT-4o ausgewählt hat, auf eine Sprache oder eine Kultur zu schließen. Schließlich handelt es sich dabei um häufig vorkommende und signifikante Phrasen aus den jeweiligen Sprachen. Es gibt einen interessanten Blogbeitrag eines in Hongkong ansässigen Forschers namens Henry Luo, der die längsten GPT-4o-Token in verschiedenen Sprachen abgefragt hat und feststellte, dass sie unterschiedliche Themen zu haben scheinen. Während die Token im Russischen die Sprache der Regierung und öffentlicher Institutionen widerspiegeln, gibt es im Japanischen viele verschiedene Möglichkeiten, „Danke“ zu sagen.

Ich denke aber, dass dies weniger die Unterschiede zwischen den Kulturen oder Ländern widerspiegelt, sondern vielmehr erklärt, welche Art von Trainingsdaten online verfügbar ist und welche Websites OpenAI durchforstet hat, um sie in GPT-4o einzuspeisen.

Nachdem ich den Artikel veröffentlicht hatte, kommentierte Victor Shih, ein Professor für Politikwissenschaften an der University of California, San Diego, diesen auf X: „Wenn man versucht, nicht auf den Inhalten der chinesischen Staatsmedien zu trainieren, bekommt man das hier.“

Das ist halb ein Witz und halb eine ernsthafte Aussage über die beiden größten Probleme beim Trainieren großer Sprachmodelle für die chinesische Sprache: Die online verfügbaren Daten spiegeln entweder die „offizielle“, sanktionierte Art und Weise wider, wie über China gesprochen wird, oder die allgegenwärtigen Spam-Inhalte, die echte Unterhaltungen überlagern.

Tatsächlich sind unter den wenigen langen chinesischen Token in GPT-4o, bei denen es sich nicht um Pornografie oder Glücksspiel-Unsinn handelt, zwei: „Sozialismus mit chinesischen Merkmalen“ und „Volksrepublik China“. Das Vorhandensein dieser Ausdrücke deutet darauf hin, dass ein erheblicher Teil der Trainingsdaten tatsächlich aus chinesischen Staatsmedien stammt, in denen formale, lange Ausdrücke äußerst üblich sind.

OpenAI hat sich in der Vergangenheit sehr bedeckt gehalten, was die Daten angeht, die es zum Trainieren seiner Modelle verwendet, und wird uns wahrscheinlich nie sagen, wie viel von seiner chinesischen Trainingsdatenbank aus staatlichen Medien und wie viel aus Spam besteht. (OpenAI hat auf die detaillierten Fragen der MIT Technology Review vom Freitag nicht geantwortet).

Aber es ist nicht das einzige Unternehmen, das mit diesem Problem kämpft. Menschen in China, die in der KI-Industrie arbeiten, sind sich einig, dass es an hochwertigen chinesischen Textdatensätzen für das Training von LLMs mangelt. Ein Grund dafür ist, dass das chinesische Internet in der Vergangenheit von großen Unternehmen wie Tencent und ByteDance aufgeteilt wurde und auch heute noch wird. Ihnen gehören die meisten sozialen Plattformen und sie werden ihre Daten nicht mit Wettbewerbern oder Dritten teilen, um LLMs zu trainieren.

Das ist auch der Grund, warum Suchmaschinen, einschließlich Google, bei der Suche auf Chinesisch so schlecht abschneiden. Da WeChat-Inhalte nur auf WeChat gesucht werden können und Inhalte auf Douyin (dem chinesischen TikTok) nur auf Douyin gesucht werden können, sind diese Daten für eine Drittanbieter-Suchmaschine nicht zugänglich, geschweige denn für ein LLM. Dies sind jedoch die Plattformen, auf denen tatsächlich menschliche Gespräche stattfinden, und nicht irgendwelche Spam-Websites, die versuchen, Sie zu Online-Glücksspielen zu verleiten.

Der Mangel an qualitativ hochwertigen Trainingsdaten ist ein viel größeres Problem als das Versäumnis, die Pornos und den allgemeinen Unsinn in den Token-Trainingsdaten von GPT-4o herauszufiltern. Wenn es keinen vorhandenen Datensatz gibt, müssen KI-Unternehmen viel Arbeit investieren, um ihre eigenen Datensätze zu identifizieren, zu beschaffen und zu kuratieren und unangemessene oder voreingenommene Inhalte herauszufiltern.

OpenAI scheint das nicht getan zu haben, was fairerweise auch Sinn macht, wenn man bedenkt, dass die Menschen in China die KI-Modelle ohnehin nicht nutzen können.

Dennoch gibt es viele Menschen, die außerhalb Chinas leben und KI-Dienste in chinesischer Sprache nutzen wollen. Und sie verdienen ein Produkt, das genauso gut funktioniert wie die Sprecher jeder anderen Sprache.

Dieser Artikel stammt von Zeyi Yang. Er ist Reporter bei der US-amerikanischen MIT Technology Review. Yang deckt Technologien in China und Ostasien ab.

Mehr zu diesem Thema

MIT Technology Review Künstliche Intelligenz

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Brands

News

Themen

Magazine

Skills

Podcast

Shop

Jobs

Events

Warum es so schwer ist, gute chinesische KI-Modelle zu bauen