Unerlaubtes KI-Training: Nvidia hat Videos von Youtube und Netflix dafür genutzt – hat das jetzt Konsequenzen?
Im Rennen um immer bessere KI-Modelle hat Nvidia offenbar eine Abkürzung genommen. Laut Berichten von 404 Media soll der Grafikkartenhersteller Videos von Youtube, Netflix und vielen weiteren Quellen für das Training von künstlicher Intelligenz genutzt haben. Der Bericht stützt sich dabei auf Slack-Nachrichten, E-Mails und interne Dokumente von Nvidia.
Nvidia-Mitarbeiter:innen sollten Videos herunterladen
Laut dem Leak sollen die Mitarbeiter:innen aufgefordert worden sein, die entsprechenden Videos einfach von den Plattformen herunterzuladen. Um nicht von den jeweiligen Seiten gesperrt zu werden, fanden die Downloads über eine virtuelle Maschine auf AWS-Servern statt. Dabei wurde die Maschine immer wieder neu gestartet, um eine neue IP zu bekommen – und die Entdeckung durch Youtube und Co. zu vermeiden.
Neben Youtube und Netflix soll auch die Datenbank für Film-Trailer MovieNet und Github-Videodatensätze für das KI-Training heruntergeladen worden sein. Unter letzteren befand sich wohl auch der Datensatz HD-VG-130M, der 130 Millionen Youtube-Videos enthält. Der Datensatz soll allein für akademische Zwecke genutzt werden. Wie aus den Nachrichten von Nvidia-Mitarbeiter:innen hervorgeht, wurde dies absichtlich ignoriert und die Daten trotzdem für das KI-Training genutzt.
Das Training wurde vor allem für Nvidias 3D-Plattform Omniverse, autonome Fahrzeugsysteme und ein bislang unveröffentlichtes Projekt namens „Cosmos“ eingesetzt, wie die Leaks weiter zusammenfassen. Letzteres soll ein Projekt zu einem „digitalen Menschen“ sein. Allerdings gehen aus den Aufzeichnungen keine weiteren Details hervor.
Drohen Nvidia jetzt Konsequenzen?
Einige Nvidia-Mitarbeiter:innen sollen im Laufe des Vorgangs immer wieder Bedenken über die Vorgehensweise geäußert haben. Sie bekamen gesagt, dass es sich hierbei um eine „Entscheidung von ganz oben“ handeln würde. Sie sollen sich keine Sorgen darum machen, da die rechtlichen Fragen für die Nutzung dieser Datensätze noch ein „offener Rechtsstreit“ wären, der in Zukunft erst einmal geklärt werden muss. Ob einige der betroffenen Unternehmen rechtliche Schritte gegen Nvidia einleiten werden, bleibt abzuwarten.
Viele Unternehmen haben aber bereits in der Vergangenheit ihren Unmut über das Training von KI über ihre Plattform geäußert – und teilweise schon rechtliche Schritte eingeleitet. Erst im April 2024 hatte sich Youtube-CEO Neal Mohan zu OpenAI geäußert, die angeblich Videos der Plattform für ChatGPT genutzt hatten. Damals sagte er: „Die Richtlinien erlauben es nicht, dass Transkriptionen oder Videos heruntergeladen werden. Das ist ein klarer Verstoß. Das sind sozusagen die Straßenverkehrsregeln für Content auf unserer Plattform.“