Anzeige
Anzeige
News

Bericht: OpenAI hat Youtube für Trainingszwecke genutzt

OpenAI steht vor einer großen Herausforderung: Wie gelangt man an frische Datensätze, um KI-Programme zu trainieren? Recherchen legen nahe, dass dabei auch im Graubereich gefischt wird.

Von Christian Bernhard
2 Min.
Artikel merken
Anzeige
Anzeige
OpenAI hat Probleme, an frische Datensätze zu Trainingszwecken zu gelangen. (Foto: TY Lim / Shutterstock)

Eine der großen Fragen, die den sagenhaften Aufstieg von OpenAI begleitet, ist: Woher stammen die Daten, mit denen der Mutterkonzern von ChatGPT und Sora seine KI-Chatbots trainiert? Laut einer Recherche der New York Times wurden über eine Million Stunden Youtube-Videos verwendet, um GPT-4, das aktuellste Sprachmodell von OpenAI, zu trainieren.

Anzeige
Anzeige

OpenAI gibt sich ausweichend

Laut der renommierten US-Tageszeitung wusste OpenAI, dass das rechtlich fragwürdig ist, stufte es aber als machbar ein. OpenAI-Vorstand Greg Brockman soll persönlich an der Sammlung der verwendeten Videos beteiligt gewesen sein, schreibt die New York Times.

Mit dem Thema konfrontiert, gab sich OpenAI ausweichend. Gegenüber The Verge teilte eine Unternehmenssprecherin mit, dass der Konzern „einzigartige“ Datensätze für jedes seiner Modelle kuratiere und dass er „zahlreiche Quellen nutzt, darunter öffentlich verfügbare Daten und Partnerschaften für nicht öffentliche Daten“.

Anzeige
Anzeige

Google stellt klar, was nicht erlaubt ist

Das Beispiel zeigt, wie schwer sich die großen KI-Unternehmen mittlerweile tun, an frische Trainingsdaten zu kommen. Demnach seien bis zum Jahr 2021 bedenkenlose Datensätze zu Trainingszwecken verwendet worden, ehe diese ausgeschöpft waren. Laut der New York Times begann OpenAI in jenem Jahr, über die Transkription von Youtube-Videos, Podcasts und Hörbüchern zu diskutieren.

Ein Google-Sprecher teilte mit, dass seinem Unternehmen „unbestätigte Berichte“ über die Aktivitäten von OpenAI vorliegen, und erinnerte daran, dass die Nutzungsbedingungen von Google das „unbefugte Auslesen oder Herunterladen von Youtube-Inhalten verbieten“. Er sagte, Google ergreife „technische und rechtliche Maßnahmen“, um eine solche unbefugte Nutzung zu verhindern, „wenn wir eine klare rechtliche oder technische Grundlage dafür haben“.

Anzeige
Anzeige

Bericht: Meta erwägt sogar den Kauf eines großen Verlages

Neal Mohan, der CEO von Youtube, hatte erst vergangene Woche gegenüber Bloomberg betont, die Verwendung von Youtube-Videos zum Trainieren von Sora würde einen Verstoß gegen die Nutzungsbedingungen der Plattform darstellen.

Auch Meta, einer der großen Konkurrenten von OpenAI, stoße bei diesem Thema an seine Grenzen. Laut Aufzeichnungen, die der New York Times vorliegen, soll Metas KI-Team die unzulässige Verwendung urheberrechtlich geschützter Werke diskutiert haben. Offenbar werde auch der Kauf von Buchlizenzen oder sogar eines großen Verlags erwogen, um an frische Trainingsdaten zu kommen.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige