O’Reilly-Bücher als Trainingsdaten für GPT-4o? Erneute Vorwürfe gegen OpenAI

Beschuldigungen gegen OpenAI, die das Urheberrecht betreffen, sind nicht neu. Angefangen bei den Klagen der New York Times gegen das KI-Unternehmen, bis hin zu den öffentlichen Vorwürfen eines ehemaligen OpenAI-Angestellten Ende 2024, der letztlich tot aufgefunden wurde. Doch nun tauchen neue Vorwürfe auf: Laut einer KI Watchdog-Organisation soll OpenAI seine Modelle mit nicht-öffentlich zugänglichen Daten aus Büchern des in der IT-Branche bekannten US-Verlags O’Reilly trainiert haben.
Inhalt kostenpflichtiger Bücher für GPT-4o?
Konkret geht es um ein neues Paper des AI Disclosures Project. Dahinter verbirgt sich eine gemeinnützige Organisation, die 2024 von Tim O’Reilly, Softwareentwickler und Gründer des O’Reilly-Verlags sowie CEO von O’Reilly Media, und dem Wirtschaftswissenschaftler Ilan Strauss ins Leben gerufen wurde. Der Veröffentlichung nach soll OpenAI sein Modell GPT-4o wahrscheinlich mit kostenpflichtigen Büchern von O’Reilly Media und deren Online-Versionen hinter der Paywall trainiert haben. Nach eigenen Angaben habe O’Reilly keine Lizenzvereinbarung mit OpenAI.
Um festzustellen, ob urheberrechtlich geschützte Inhalte im Trainingsprozess eines Sprachmodells verwendet wurden, setzt das Paper auf eine experimentelle Methode: die DE-COP – Detecting Copyrighted Content in Language Models Training Data Methode. Damit wird getestet, ob ein Modell zuverlässig von Menschen verfasste Texte von umschriebenen, KI-generierten Versionen desselben Textes unterscheiden kann. Wenn dies der Fall ist, deutet es darauf hin, dass das Modell möglicherweise bereits über Vorkenntnisse aus seinen Trainingsdaten verfügt. Getestet wurde die Methode an dem GPT-4o sowie weiteren älteren Modellen.
Untersuchung mit 34 O’Reilly-Büchern
Die Autoren des Papers verwendeten knapp 14.000 Absatzauszüge aus 34 O’Reilly-Büchern, um die Wahrscheinlichkeit abzuschätzen, ob ein bestimmter Auszug in den Trainingsdatensatz eines Modells eingeflossen ist. Laut den Ergebnissen des Papiers „erkennt“ GPT-4o weitaus mehr kostenpflichtige O’Reilly-Buchinhalte als die älteren Modelle von OpenAI, insbesondere GPT-3.5 Turbo: „GPT-4o, das neuere und leistungsfähigere Modell von OpenAI, zeigt eine starke Erkennung von kostenpflichtigen O’Reilly-Buchinhalten“, heißt es in dem Paper. Im Gegensatz dazu würde das ältere Modell GPT-3.5 Turbo eine größere Erkennung von öffentlich zugänglichen O’Reilly-Buchbeispielen zeigen.
Warum der Vorwurf hinken könnte
Die Co-Autoren betonen, dass ihr Paper keinen eindeutigen Beweis für den Vorwurf liefert. Sie räumen ein, dass die Ergebnisse nicht vollständig wissenschaftlich belegt sind. So ist es zum Beispiel möglich, dass Nutzer:innen die kostenpflichtigen Buchauszüge kopiert und in ChatGPT eingefügt haben. Außerdem wurden in der Methode nicht alle verfügbaren Modelle berücksichtigt – auch das könnte die Aussagekraft der Ergebnisse schmälern.
OpenAI führt mehrere Klagen wegen seiner Praktiken bei Trainingsdaten und der Handhabung des Urheberrechts vor US-Gerichten. Daher wirft das Paper trotz allem kein besonders schmeichelhaftes Licht auf das Unternehmen.