Erstes Zertifikat für generative KI, die Copyright beachtet – ChatGPT kriegt das erstmal nicht
Bilder, Texte und Audiodateien: Für generative KI-Modelle wie ChatGPT und Stable Diffusion sind das unverzichtbare Trainingsdaten.
Die Menschen, die diese Bilder, Texte oder Audiodateien erschaffen haben, werden allerdings nur selten nach ihrem Einverständnis gefragt, bevor ihre Werke in den Trainingsdatenbanken von OpenAI, Stability AI und Co. landen.
Ein neues Siegel soll jetzt den Fokus auf Modelle lenken, die Hand in Hand mit Kreativschaffenden entwickelt wurden.
Von Stability AI zum Urheberrechtsverfechter
Die Initiative Fairly Trained prüft und kennzeichnet KI-Firmen, die bei der Auswahl ihrer Trainingsdaten entgegen der gängigen Praxis Urheberrechtslizenzen berücksichtigen.
Gründer Ed Newton-Rex ist Musikproduzent, arbeitet selbst mit generativer KI – und hat im November 2023 seinen Job als stellvertretender Leiter der Audioabteilung von Stability AI gekündigt. Seine Begründung für den Weggang: Die Firma beute Kreativschaffende aus, die Fair-Use-Regelung im US-amerikanischen Urheberrecht, mit der sich beispielsweise auch OpenAI gegen die New York Times verteidigen will, trifft aus seiner Sicht nicht auf das KI-Training zu.
Gegenüber The Next Web erklärt Newton-Rex, warum er sich nach dem Weggang von Stability AI der Fairly-Trained-Zertifizierung gewidmet hat: „Sowohl aus ethischen als auch aus rechtlichen Gründen gibt es eine Menge Leute und Unternehmen, die lieber generative KI-Modelle verwenden möchten, die mit lizenzierten Daten trainiert wurden.“ Ebensolche Modelle gebe es bereits – sie seien nur nicht eindeutig erkennbar.
Unterstützt wird Newton-Rex von Organisationen wie der Universal Music Group und der amerikanischen Publisher-Vereinigung AAP, zum Advisory-Board gehört auch Siri-Miterfinder und KI-Experte Tom Gruber.
KI-Training mit Urheberrechtsschutz: Für ChatGPT und Co. kaum denkbar
Insgesamt neun KI-Modelle tragen derzeit das von Newton-Rex entwickelte Fairly-Trained-Siegel: Tuney, Beatoven.ai, Somms.AI, Soundful, Endel, Boomy, Bria AI, Rightsify und Lifescore. Die meisten davon sind Musik- oder Soundgeneratoren, es seien, so Newton-Rex, aber auch andere Medienformate „auf dem Weg“ zur Zertifizierung.
Nur was Text generierende KI-Modelle angeht, dürfte eine Fairly-Trained-Zertifizierung erst einmal schwierig sein. Die Datenmengen, die Large-Language-Modelle wie OpenAIs ChatGPT aktuell im Training brauchen, um sinnvollen Output zu liefern, ist enorm.
„Jedes große Sprachmodell, das mir bekannt ist, wurde mit einer riesigen Menge urheberrechtlich geschützter Werke trainiert“, sagt Newton-Rex zu The Next Web. Der Fairly-Trained-CEO hofft aber, dass sich das irgendwann ändern wird – und es „Sprachmodelle geben wird, die mit einer kleinen Datenmenge trainiert und schließlich lizenziert werden“.