Anzeige
Anzeige
Anzeige
Anzeige
MIT Technology Review News
Verpasse keine News mehr!

O’Reilly-Bücher als Trainingsdaten für GPT-4o? Erneute Vorwürfe gegen OpenAI

Laut einer Untersuchung des AI Disclosures Projects soll sich OpenAI für seine KI-Modelle an Büchern des IT-Verlags O’Reilly bedient haben. Eine Lizenz für eine solche Vereinbarung liege dem Unternehmen nicht vor.

Von Alisa Pankau
2 Min.
Artikel merken
Anzeige
Anzeige
Break the Cycle empfiehlt euch Lesestoff entgegen eurer Präferenzen (Foto: Chinnapong/Shutterstock)

Beschuldigungen gegen OpenAI, die das Urheberrecht betreffen, sind nicht neu. Angefangen bei den Klagen der New York Times gegen das KI-Unternehmen, bis hin zu den öffentlichen Vorwürfen eines ehemaligen OpenAI-Angestellten Ende 2024, der letztlich tot aufgefunden wurde. Doch nun tauchen neue Vorwürfe auf: Laut einer KI Watchdog-Organisation soll OpenAI seine Modelle mit nicht-öffentlich zugänglichen Daten aus Büchern des in der IT-Branche bekannten US-Verlags O’Reilly trainiert haben. 

Anzeige
Anzeige

Inhalt kostenpflichtiger Bücher für GPT-4o?

Konkret geht es um ein neues Paper des AI Disclosures Project. Dahinter verbirgt sich eine gemeinnützige Organisation, die 2024 von Tim O’Reilly, Softwareentwickler und Gründer des O’Reilly-Verlags sowie CEO von O’Reilly Media, und dem Wirtschaftswissenschaftler Ilan Strauss ins Leben gerufen wurde. Der Veröffentlichung nach soll OpenAI sein Modell GPT-4o wahrscheinlich mit kostenpflichtigen Büchern von O’Reilly Media und deren Online-Versionen hinter der Paywall trainiert haben. Nach eigenen Angaben habe O’Reilly keine Lizenzvereinbarung mit OpenAI. 

Um festzustellen, ob urheberrechtlich geschützte Inhalte im Trainingsprozess eines Sprachmodells verwendet wurden, setzt das Paper auf eine experimentelle Methode: die DE-COP – Detecting Copyrighted Content in Language Models Training Data Methode. Damit wird getestet, ob ein Modell zuverlässig von Menschen verfasste Texte von umschriebenen, KI-generierten Versionen desselben Textes unterscheiden kann. Wenn dies der Fall ist, deutet es darauf hin, dass das Modell möglicherweise bereits über Vorkenntnisse aus seinen Trainingsdaten verfügt. Getestet wurde die Methode an dem GPT-4o sowie weiteren älteren Modellen. 

Anzeige
Anzeige

Untersuchung mit 34 O’Reilly-Büchern

Die Autoren des Papers verwendeten knapp 14.000 Absatzauszüge aus 34 O’Reilly-Büchern, um die Wahrscheinlichkeit abzuschätzen, ob ein bestimmter Auszug in den Trainingsdatensatz eines Modells eingeflossen ist. Laut den Ergebnissen des Papiers „erkennt“ GPT-4o weitaus mehr kostenpflichtige O’Reilly-Buchinhalte als die älteren Modelle von OpenAI, insbesondere GPT-3.5 Turbo: „GPT-4o, das neuere und leistungsfähigere Modell von OpenAI, zeigt eine starke Erkennung von kostenpflichtigen O’Reilly-Buchinhalten“, heißt es in dem Paper. Im Gegensatz dazu würde das ältere Modell GPT-3.5 Turbo eine größere Erkennung von öffentlich zugänglichen O’Reilly-Buchbeispielen zeigen.

Warum der Vorwurf hinken könnte

Die Co-Autoren betonen, dass ihr Paper keinen eindeutigen Beweis für den Vorwurf liefert. Sie räumen ein, dass die Ergebnisse nicht vollständig wissenschaftlich belegt sind. So ist es zum Beispiel möglich, dass Nutzer:innen die kostenpflichtigen Buchauszüge kopiert und in ChatGPT eingefügt haben. Außerdem wurden in der Methode nicht alle verfügbaren Modelle berücksichtigt – auch das könnte die Aussagekraft der Ergebnisse schmälern. 

OpenAI führt mehrere Klagen wegen seiner Praktiken bei Trainingsdaten und der Handhabung des Urheberrechts vor US-Gerichten. Daher wirft das Paper trotz allem kein besonders schmeichelhaftes Licht auf das Unternehmen.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren