Bericht: OpenAI hat Youtube für Trainingszwecke genutzt

News

Bericht: OpenAI hat Youtube für Trainingszwecke genutzt

OpenAI steht vor einer großen Herausforderung: Wie gelangt man an frische Datensätze, um KI-Programme zu trainieren? Recherchen legen nahe, dass dabei auch im Graubereich gefischt wird.

Von Christian Bernhard

08.04.2024, 13:15 Uhr • 2 Min.

Bericht: OpenAI hat Youtube für Trainingszwecke genutzt — OpenAI hat Probleme, an frische Datensätze zu Trainingszwecken zu gelangen. (Foto: TY Lim / Shutterstock)

Eine der großen Fragen, die den sagenhaften Aufstieg von OpenAI begleitet, ist: Woher stammen die Daten, mit denen der Mutterkonzern von ChatGPT und Sora seine KI-Chatbots trainiert? Laut einer Recherche der New York Times wurden über eine Million Stunden Youtube-Videos verwendet, um GPT-4, das aktuellste Sprachmodell von OpenAI, zu trainieren.

OpenAI gibt sich ausweichend

Laut der renommierten US-Tageszeitung wusste OpenAI, dass das rechtlich fragwürdig ist, stufte es aber als machbar ein. OpenAI-Vorstand Greg Brockman soll persönlich an der Sammlung der verwendeten Videos beteiligt gewesen sein, schreibt die New York Times.

Empfehlungen der Redaktion

News

ChatGPT-Nutzer:innen aufgepasst: So behältst du die Kontrolle über deine Daten

News

OpenAI hält mächtige Sprach-KI zurück – Sie ist zu gefährlich

News

OpenAI-CEO über ChatGPT-4: „Ich finde es gar nicht mal so gut“

Mit dem Thema konfrontiert, gab sich OpenAI ausweichend. Gegenüber The Verge teilte eine Unternehmenssprecherin mit, dass der Konzern „einzigartige“ Datensätze für jedes seiner Modelle kuratiere und dass er „zahlreiche Quellen nutzt, darunter öffentlich verfügbare Daten und Partnerschaften für nicht öffentliche Daten“.

Google stellt klar, was nicht erlaubt ist

Das Beispiel zeigt, wie schwer sich die großen KI-Unternehmen mittlerweile tun, an frische Trainingsdaten zu kommen. Demnach seien bis zum Jahr 2021 bedenkenlose Datensätze zu Trainingszwecken verwendet worden, ehe diese ausgeschöpft waren. Laut der New York Times begann OpenAI in jenem Jahr, über die Transkription von Youtube-Videos, Podcasts und Hörbüchern zu diskutieren.

Ein Google-Sprecher teilte mit, dass seinem Unternehmen „unbestätigte Berichte“ über die Aktivitäten von OpenAI vorliegen, und erinnerte daran, dass die Nutzungsbedingungen von Google das „unbefugte Auslesen oder Herunterladen von Youtube-Inhalten verbieten“. Er sagte, Google ergreife „technische und rechtliche Maßnahmen“, um eine solche unbefugte Nutzung zu verhindern, „wenn wir eine klare rechtliche oder technische Grundlage dafür haben“.

Bericht: Meta erwägt sogar den Kauf eines großen Verlages

Neal Mohan, der CEO von Youtube, hatte erst vergangene Woche gegenüber Bloomberg betont, die Verwendung von Youtube-Videos zum Trainieren von Sora würde einen Verstoß gegen die Nutzungsbedingungen der Plattform darstellen.

Auch Meta, einer der großen Konkurrenten von OpenAI, stoße bei diesem Thema an seine Grenzen. Laut Aufzeichnungen, die der New York Times vorliegen, soll Metas KI-Team die unzulässige Verwendung urheberrechtlich geschützter Werke diskutiert haben. Offenbar werde auch der Kauf von Buchlizenzen oder sogar eines großen Verlags erwogen, um an frische Trainingsdaten zu kommen.

Mehr zu diesem Thema

MIT Technology Review Google Künstliche Intelligenz YouTube Meta Open AI

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren