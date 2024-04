OpenAI hat Probleme, an frische Datensätze zu Trainingszwecken zu gelangen. (Foto: TY Lim / Shutterstock)

Eine der großen Fragen, die den sagenhaften Aufstieg von OpenAI begleitet, ist: Woher stammen die Daten, mit denen der Mutterkonzern von ChatGPT und Sora seine KI-Chatbots trainiert? Laut einer Recherche der New York Times wurden über eine Million Stunden Youtube-Videos verwendet, um GPT-4, das aktuellste Sprachmodell von OpenAI, zu trainieren.

OpenAI gibt sich ausweichend

Laut der renommierten US-Tageszeitung wusste OpenAI, dass das rechtlich fragwürdig ist, stufte es aber als machbar ein. OpenAI-Vorstand Greg Brockman soll persönlich an der Sammlung der verwendeten Videos beteiligt gewesen sein, schreibt die New York Times.

Mit dem Thema konfrontiert, gab sich OpenAI ausweichend. Gegenüber The Verge teilte eine Unternehmenssprecherin mit, dass der Konzern „einzigartige“ Datensätze für jedes seiner Modelle kuratiere und dass er „zahlreiche Quellen nutzt, darunter öffentlich verfügbare Daten und Partnerschaften für nicht öffentliche Daten“.

Google stellt klar, was nicht erlaubt ist

Das Beispiel zeigt, wie schwer sich die großen KI-Unternehmen mittlerweile tun, an frische Trainingsdaten zu kommen. Demnach seien bis zum Jahr 2021 bedenkenlose Datensätze zu Trainingszwecken verwendet worden, ehe diese ausgeschöpft waren. Laut der New York Times begann OpenAI in jenem Jahr, über die Transkription von Youtube-Videos, Podcasts und Hörbüchern zu diskutieren.

Ein Google-Sprecher teilte mit, dass seinem Unternehmen „unbestätigte Berichte“ über die Aktivitäten von OpenAI vorliegen, und erinnerte daran, dass die Nutzungsbedingungen von Google das „unbefugte Auslesen oder Herunterladen von Youtube-Inhalten verbieten“. Er sagte, Google ergreife „technische und rechtliche Maßnahmen“, um eine solche unbefugte Nutzung zu verhindern, „wenn wir eine klare rechtliche oder technische Grundlage dafür haben“.

Bericht: Meta erwägt sogar den Kauf eines großen Verlages

Neal Mohan, der CEO von Youtube, hatte erst vergangene Woche gegenüber Bloomberg betont, die Verwendung von Youtube-Videos zum Trainieren von Sora würde einen Verstoß gegen die Nutzungsbedingungen der Plattform darstellen.

Auch Meta, einer der großen Konkurrenten von OpenAI, stoße bei diesem Thema an seine Grenzen. Laut Aufzeichnungen, die der New York Times vorliegen, soll Metas KI-Team die unzulässige Verwendung urheberrechtlich geschützter Werke diskutiert haben. Offenbar werde auch der Kauf von Buchlizenzen oder sogar eines großen Verlags erwogen, um an frische Trainingsdaten zu kommen.