Anzeige
Anzeige
News

KI-Training mit Hollywood-Flair: Warum Untertitel aus Filmen und Serien für Chatbots so wertvoll sind

Um generative KI immer besser zu machen, muss die Technologie mit den richtigen Daten trainiert werden. Dazu scheinen zu einem nicht unerheblichen Teil auch beliebte Filme und TV-Serien zu gehören.

Von Ann-Catherin Karg
2 Min.
Artikel merken
Anzeige
Anzeige

Was Homer Simpson sagt, hat auch für KI-Modelle Gewicht. (Foto: Haelen Haagen/Shutterstock)

Laut eines Berichts der US-Zeitschrift The Atlantic nutzen die Riesen der KI-Branche zum Trainieren ihrer Chatbots eine Quelle, an die bisher die wenigsten gedacht haben dürften: Untertitel, die in populären Kinofilmen und Fernsehserien zum Einsatz kommen. Auf einem kürzlich entdeckten KI-Trainingsdatensatz sollen sich die Untertitel von nicht weniger als 53.000 Filmen und 85.000 Serienfolgen befunden haben.

Anzeige
Anzeige

Darunter sollen die Untertitel aller Filme sein, die zwischen 1950 und 2016 in der Kategorie Bester Film bei der Oscar-Verleihung nominiert waren. Im Hinblick auf Serien dürften sich verschiedene KI-Modelle bestens mit „Breaking Bad“, „The Wire“ und „Die Sopranos“ auskennen.

Die Untertitel spiegeln authentische Sprachrhythmen und -stile wider

Von diesen Serien sollen sich die Untertitel aller jemals veröffentlichten Episoden in dem Datensatz befinden. Dazu diejenigen von 45 Folgen „Twin Peaks“, 170 Folgen „Seinfeld“ und mindestens 616 Folgen von „Die Simpsons“.

Anzeige
Anzeige

Warum abseits von Drehbüchern gerade die Untertitel so wertvoll sind, erklärt „The Atlantic“ folgendermaßen: Als Rohform des geschriebenen Dialogs enthielten sie die Rhythmen und Stile gesprochener Sprache und ermöglichten Technologieunternehmen, das Repertoire der generativen KI über akademische und journalistische Texte sowie Romane hinaus zu erweitern.

Namhafte KI-Unternehmen sollen die Daten nutzen

Die gesammelten Untertitel stammen von einer Webseite namens Opensubtitles.org, für die sie von den User:innen von Blu-Ray-Discs, DVDs und Internet-Streams extrahiert werden. Ein schier unermesslicher Trainingsdatenschatz, der mehr als 9 Millionen Untertiteldateien in über 100 Sprachen enthalten soll.

Anzeige
Anzeige

Und eine willkommene Quelle für viele, die in der KI-Branche ganz vorne mitmischen. Beispielsweise sollen sich Apple, Meta, Nvidia, Anthropic und Salesforce und Bloomberg ihrer bedient haben.

Wofür die Modelle genutzt werden, ist nicht kontrollierbar

Insgesamt sollen wenigstens 140 Open-Source-Modelle mit den Daten gefüttert worden sein. Modelle, die damit potenziell in die Lage versetzt werden, irgendwann die Arbeit von menschlichen Autor:innen zu übernehmen.

Anzeige
Anzeige

Während Nvidia, Bloomberg und Anthropic auf Anfrage keine offiziellen Kommentare abgaben, sagte ein Salesforce-Sprecher, dass das Unternehmen Opensubtitles tatsächlich zur Entwicklung generativer KI genutzt habe. Allerdings sei der Datensatz nicht verwendet worden, um ein Produktangebot von Salesforce zu verbessern.

Laut Apple sollen die LLMs, zu deren Training die Untertitel eingesetzt wurden, allein für Forschungszwecke gedacht sein. Allerdings haben die Unternehmen keinen Einfluss darauf, wofür die Open-Source-Modelle von den Entwickler:innen konkret genutzt werden.

Lumas Dream Mashine AI verwandelt Fotos in beeindruckende Videos

Lumas Dream Machine AI verwandelt Fotos in beeindruckende Videos Quelle:
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige