Bericht: OpenAI hat Youtube für Trainingszwecke genutzt
Eine der großen Fragen, die den sagenhaften Aufstieg von OpenAI begleitet, ist: Woher stammen die Daten, mit denen der Mutterkonzern von ChatGPT und Sora seine KI-Chatbots trainiert? Laut einer Recherche der New York Times wurden über eine Million Stunden Youtube-Videos verwendet, um GPT-4, das aktuellste Sprachmodell von OpenAI, zu trainieren.
OpenAI gibt sich ausweichend
Laut der renommierten US-Tageszeitung wusste OpenAI, dass das rechtlich fragwürdig ist, stufte es aber als machbar ein. OpenAI-Vorstand Greg Brockman soll persönlich an der Sammlung der verwendeten Videos beteiligt gewesen sein, schreibt die New York Times.
Mit dem Thema konfrontiert, gab sich OpenAI ausweichend. Gegenüber The Verge teilte eine Unternehmenssprecherin mit, dass der Konzern „einzigartige“ Datensätze für jedes seiner Modelle kuratiere und dass er „zahlreiche Quellen nutzt, darunter öffentlich verfügbare Daten und Partnerschaften für nicht öffentliche Daten“.
Google stellt klar, was nicht erlaubt ist
Das Beispiel zeigt, wie schwer sich die großen KI-Unternehmen mittlerweile tun, an frische Trainingsdaten zu kommen. Demnach seien bis zum Jahr 2021 bedenkenlose Datensätze zu Trainingszwecken verwendet worden, ehe diese ausgeschöpft waren. Laut der New York Times begann OpenAI in jenem Jahr, über die Transkription von Youtube-Videos, Podcasts und Hörbüchern zu diskutieren.
Ein Google-Sprecher teilte mit, dass seinem Unternehmen „unbestätigte Berichte“ über die Aktivitäten von OpenAI vorliegen, und erinnerte daran, dass die Nutzungsbedingungen von Google das „unbefugte Auslesen oder Herunterladen von Youtube-Inhalten verbieten“. Er sagte, Google ergreife „technische und rechtliche Maßnahmen“, um eine solche unbefugte Nutzung zu verhindern, „wenn wir eine klare rechtliche oder technische Grundlage dafür haben“.
Bericht: Meta erwägt sogar den Kauf eines großen Verlages
Neal Mohan, der CEO von Youtube, hatte erst vergangene Woche gegenüber Bloomberg betont, die Verwendung von Youtube-Videos zum Trainieren von Sora würde einen Verstoß gegen die Nutzungsbedingungen der Plattform darstellen.
Auch Meta, einer der großen Konkurrenten von OpenAI, stoße bei diesem Thema an seine Grenzen. Laut Aufzeichnungen, die der New York Times vorliegen, soll Metas KI-Team die unzulässige Verwendung urheberrechtlich geschützter Werke diskutiert haben. Offenbar werde auch der Kauf von Buchlizenzen oder sogar eines großen Verlags erwogen, um an frische Trainingsdaten zu kommen.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team