KI-Training: Mit diesem Tool können Urheber geklaute Inhalte ermitteln
Seit dem Beginn des Booms der generativen KI argumentieren die Urheber von Inhalten, dass ihre Werke ohne ihre Zustimmung in KI-Modelle integriert wurden. Bislang war es jedoch schwierig, nachzuweisen, ob ein bestimmter Text tatsächlich in einem Trainingsdatensatz verwendet wurde.
Jetzt haben sie eine neue Möglichkeit, dies zu beweisen: Sogenannte Copyright-Traps, die von einem Team am Imperial College London entwickelt wurden. Dabei handelt es sich um gut versteckte Textstücke, die es Autoren und Verlegern ermöglichen, ihre Werke auf subtile Weise zu kennzeichnen, um später zu erkennen, ob sie in KI-Modellen verwendet wurden oder nicht. Die Idee ähnelt Textfallen, die von Urheberrechtsinhabern bereits im Laufe der Buchgeschichte verwendet wurden – Strategien wie die Einfügung falscher Orte in eine Karte oder falscher Wörter in ein Wörterbuch.
Die Copyright-Traps stürzen sich mitten ins Getümmel, eines der größten Kämpfe in der KI. Eine Reihe bekannter Verleger und Schriftsteller befinden sich derzeit in Rechtsstreitigkeiten mit großen Technologieunternehmen. Sie behaupten, ihr geistiges Eigentum sei ohne ihre Zustimmung in KI-Trainingsdatensätze eingefügt worden. Der laufende Konflikt zwischen der New York Times und OpenAI ist wahrscheinlich der am meisten beachtete. Code zum Erzeugen und Erkennen von der KI-Textfallen ist bereits auf GitHub verfügbar, aber das Team beabsichtigt auch, ein Tool zu entwickeln, mit dem Menschen selbst solche Copyright-Traps erzeugen und in ihr Material integrieren können.
„Es besteht ein völliger Mangel an Transparenz in Bezug darauf, welche Inhalte zum Trainieren von Modellen verwendet werden, und wir glauben, dass dies verhindert, dass es ein echtes Gleichgewicht zwischen KI-Firmen und Urhebern von Inhalten gibt“, sagt Yves-Alexandre de Montjoye, außerordentlicher Professor für angewandte Mathematik und Informatik am Imperial College London, der die Arbeit leitete. Die Ergebnisse wurden auf der International Conference on Machine Learning vorgestellt, einer führenden KI-Konferenz, die in Wien stattfindet.
Membership-Angriff und „Perplexity“
Um die Copyright-Traps zu erstellen, verwendete das Team einen Wortgenerator, um Tausende von synthetischen Sätzen zu erzeugen. Diese Sätze sind lang und voller Kauderwelsch und sehen auf Englisch zum Beispiel so aus: „When in comes times of turmoil … whats on sale and more important when, is best, this list tells your who is opening on Thrs. at night with their regular sale times and other opening time from your neighbors. You still.“
Das Team erstellte insgesamt 100 dieser Textfallen und wählte dann nach dem Zufallsprinzip einen aus, um ihn mehrmals in einen Text einzufügen, erklärt de Montjoy. Die Copyright Trap konnte auf verschiedene Art in den Text eingefügt werden – beispielsweise als weißer Text auf weißem Hintergrund oder eingebettet in den Quellcode eines Artikels, damit dies den menschlichen Leser nicht stört. Der Satz muss im Text 100 bis 1.000 Mal wiederholt werden.
Um die Textfallen zu erkennen, fütterten die Forscher ein großes Sprachmodell mit den 100 synthetischen Sätzen, die sie generiert hatten, und prüften, ob es sie als „neu“ markierte oder nicht. Wenn das Modell einen der Sätze in seinen Trainingsdaten gesehen hatte, zeigte es einen niedrigeren Wert der „Überraschung“ (auch bekannt als „perplexity“) an. Wenn das Modell jedoch von Sätzen „überrascht“ war, bedeutete dies, dass es diesen zum ersten Mal begegnete und es sich daher nicht um Material handelte, dass die Copyright Trap enthielt.
In der Vergangenheit hatten Forscher vorgeschlagen, die Tatsache auszunutzen, dass sich Sprachmodelle ihre Trainingsdaten merken, um festzustellen, ob etwas in diesen Daten vorkommt. Diese Technik, die als Membership Inference Attack bezeichnet wird, funktioniert effektiv bei großen, hochmodernen Modellen, die dazu neigen, sich während des Trainings viele ihrer Daten zu merken.
Kleinere Modelle sind noch ein Problem
Im Gegensatz dazu speichern kleinere Modelle, die immer beliebter werden und sich auf mobilen Geräten ausführen lassen, weniger Daten und sind daher weniger anfällig für diese Angriffe. So wird es schwieriger, festzustellen, ob sie mit einem bestimmten urheberrechtlich geschützten Dokument trainiert wurden oder nicht, sagt Gautam Kamath, Assistenzprofessor für Informatik an der University of Waterloo, der nicht an der Copyright-Trap-Forschung beteiligt war.
Textfallen sind aber eine Möglichkeit, auch bei kleineren Modellen Angriffe auf die sogenannte Zugehörigkeitserkennung durchzuführen. Das Team injizierte seine Schnipsel in den Trainingsdatensatz von CroissantLLM, einem neuen zweisprachigen französisch-englischen Sprachmodell, das von einem Team aus Industrie- und Hochschulforschern, mit dem das Team des Imperial College London zusammenarbeitete, von Grund auf neu trainiert wurde. CroissantLLM hat 1,3 Milliarden Parameter und damit nur einen Bruchteil der Anzahl der modernsten Modelle (GPT-4 hat z. B. 1,76 Billionen).
Die Forschungsergebnisse zeigen, dass es in der Tat möglich ist, solche Textfallen in Inhalte einzubauen, um die Wirksamkeit solcher Erkennungen deutlich zu erhöhen – selbst bei kleineren Modellen, sagt Kamath. Aber es gibt noch viel zu tun, fügt er hinzu.
Hinzu kommt: Die 1.000-malige Wiederholung eines Satzes mit 75 Wörtern in einem Dokument stellt eine große Veränderung des Originaltextes dar. Menschen, die KI-Modelle trainieren, könnten eine Copyright-Trap erkennen und Inhalte dann überspringen oder sie einfach löschen, sagt Kamath. Außerdem wird der Originaltext dadurch schwer lesbar.
Noch sind sie unpraktisch
Das macht Copyright-Fallen derzeit unpraktisch, sagt Sameer Singh, Professor für Informatik an der University of California, Irvine, und Mitbegründer des Start-ups Spiffy AI. Er war nicht an der Forschung beteiligt. „Viele Unternehmen führen eine Deduplizierung durch, d. h. sie bereinigen die Daten, und ein Großteil dieser Art von Daten wird wahrscheinlich einfach weggeworfen“, sagt Singh.
Eine Möglichkeit zur Verbesserung der Copyright-Traps bestünde laut Kamath darin, andere Möglichkeiten zur Kennzeichnung urheberrechtlich geschützter Inhalte zu finden.
De Montjoye räumt ein, dass die Textfallen nicht narrensicher sind. Ein motivierter Verteidiger, der von einer Copyright-Trap weiß, kann sie entfernen, sagt er. „Ob er sie alle entfernen kann oder nicht, ist eine offene Frage. Das wird wahrscheinlich ein Katz-und-Maus-Spiel“, sagt er. Aber selbst dann gilt: Je mehr Textfallen gestellt werden, desto schwieriger wird es, sie alle zu entfernen, ohne erhebliche technische Mittel einzusetzen.
„Man muss bedenken, dass Copyright-Traps möglicherweise nur eine Notlösung oder lediglich eine Unannehmlichkeit für die Modelltrainierer sind“, sagt Kamath. „Man kann einen Inhalt, der eine Textfalle enthält, einfach nicht freigeben und sich sicher sein, dass das für immer funktioniert.“