KI-Training mit Hollywood-Flair: Warum Untertitel aus Filmen und Serien für Chatbots so wertvoll sind
Laut eines Berichts der US-Zeitschrift The Atlantic nutzen die Riesen der KI-Branche zum Trainieren ihrer Chatbots eine Quelle, an die bisher die wenigsten gedacht haben dürften: Untertitel, die in populären Kinofilmen und Fernsehserien zum Einsatz kommen. Auf einem kürzlich entdeckten KI-Trainingsdatensatz sollen sich die Untertitel von nicht weniger als 53.000 Filmen und 85.000 Serienfolgen befunden haben.
Darunter sollen die Untertitel aller Filme sein, die zwischen 1950 und 2016 in der Kategorie Bester Film bei der Oscar-Verleihung nominiert waren. Im Hinblick auf Serien dürften sich verschiedene KI-Modelle bestens mit „Breaking Bad“, „The Wire“ und „Die Sopranos“ auskennen.
Die Untertitel spiegeln authentische Sprachrhythmen und -stile wider
Von diesen Serien sollen sich die Untertitel aller jemals veröffentlichten Episoden in dem Datensatz befinden. Dazu diejenigen von 45 Folgen „Twin Peaks“, 170 Folgen „Seinfeld“ und mindestens 616 Folgen von „Die Simpsons“.
Warum abseits von Drehbüchern gerade die Untertitel so wertvoll sind, erklärt „The Atlantic“ folgendermaßen: Als Rohform des geschriebenen Dialogs enthielten sie die Rhythmen und Stile gesprochener Sprache und ermöglichten Technologieunternehmen, das Repertoire der generativen KI über akademische und journalistische Texte sowie Romane hinaus zu erweitern.
Namhafte KI-Unternehmen sollen die Daten nutzen
Die gesammelten Untertitel stammen von einer Webseite namens Opensubtitles.org, für die sie von den User:innen von Blu-Ray-Discs, DVDs und Internet-Streams extrahiert werden. Ein schier unermesslicher Trainingsdatenschatz, der mehr als 9 Millionen Untertiteldateien in über 100 Sprachen enthalten soll.
Und eine willkommene Quelle für viele, die in der KI-Branche ganz vorne mitmischen. Beispielsweise sollen sich Apple, Meta, Nvidia, Anthropic und Salesforce und Bloomberg ihrer bedient haben.
Wofür die Modelle genutzt werden, ist nicht kontrollierbar
Insgesamt sollen wenigstens 140 Open-Source-Modelle mit den Daten gefüttert worden sein. Modelle, die damit potenziell in die Lage versetzt werden, irgendwann die Arbeit von menschlichen Autor:innen zu übernehmen.
Während Nvidia, Bloomberg und Anthropic auf Anfrage keine offiziellen Kommentare abgaben, sagte ein Salesforce-Sprecher, dass das Unternehmen Opensubtitles tatsächlich zur Entwicklung generativer KI genutzt habe. Allerdings sei der Datensatz nicht verwendet worden, um ein Produktangebot von Salesforce zu verbessern.
Laut Apple sollen die LLMs, zu deren Training die Untertitel eingesetzt wurden, allein für Forschungszwecke gedacht sein. Allerdings haben die Unternehmen keinen Einfluss darauf, wofür die Open-Source-Modelle von den Entwickler:innen konkret genutzt werden.