KI-Kunstklau: Wie Glaze und Co. den Kampf um den Schutz digitaler Werke verlieren

KI-Bildgeneratoren werden immer besser. Künstler:innen beklagen allerdings, dass die dahinter liegenden Modelle mit aus dem Internet heruntergeladenen Bildern trainiert worden sind, die nie für das KI-Training freigegeben wurden. Darüber hinaus erlauben feinabgestimmte Modelle sehr spezifisch, Kunstwerke im Stil eines ganz bestimmten Künstlers oder einer Künstlerin zu erstellen – natürlich ohne die Kreativen an Erlösen zu beteiligen.
Dagegen hat sich mittlerweile natürlich auch Widerstand entwickelt. Zum einen klagen mittlerweile diverse Kreative, um juristisch feststellen zu lassen, ob das Training von KI-Modellen ohne Einverständnis der Urheber:innen gegen das Urheberrecht verstößt. Das ist allerdings eine komplizierte juristische Frage, die in den USA anders verhandelt wird als in Europa.
Unabhängig von den juristischen Auseinandersetzungen gibt es mittlerweile auch eine Reihe von Software-Tools, die verhindern sollen, dass online veröffentlichte Bilder für das Training neuer Modelle oder gar für das Finetuning verwendet werden.
Forscher:innen der ETH Zürich und von Deepmind haben nun allerdings ein Paper veröffentlicht, in dem sie zeigen, dass die gängigste Schutzmethode gegen dieses „Style Cloning“ sich verhältnismäßig leicht aushebeln lässt. Weil sie den Machern einer populären Schutz-Software vorwerfen „ein falsches Gefühl der Sicherheit“ zu erzeugen, sorgt das Paper für viel Streit – vor allem in sozialen Medien.
Das hängt auch damit zusammen, dass einer der Autoren, Nicholas Carlini von Deepmind, in der Szene kein Unbekannter: Er hat gezeigt, wie man Trainingsdaten von ChatGPT absaugen kann, oder wie man giftige Prompts für Chatbots konstruiert, um deren ethische Schutzmechanismen auszuschalten, oder wie man einen Trainingsdatensatz für große Sprachmodelle so manipuliert, dass man damit Hintertüren in das Modell einbauen kann. Ben Zhao von der University of Chicago und Leiter des Glaze Projektes wirft Carlini vor, seine Vorgehensweise sei verantwortungslos, und er würde sich sich „einen Dreck um die Betroffenen scheren“.
Wie funktioniert der Schutz von digitalen Bildern?
KI-Bildgeneratoren arbeiten nicht direkt auf Pixel-Ebene, sondern im so genannten „latenten Raum“: Das heißt, sie lernen während des Trainings, was wesentliche Merkmale von einem Bild sind. Technisch betrachtet ist das alles noch ein wenig komplexer, im Wesentlichen komprimiert aber ein „Encoder“ das vom Prompt vorgegebene Bild in einer niedrigdimensionalen Darstellung im latenten Raum. Anschließend laufen Diffusion und Rauschunterdrückung über diese Repräsentation, um das gewünschte Bild zu generieren.
Software-Tools wie Glaze oder Nightshade setzen an dieser Komprimierung an. Die Software verändert gezielt einzelne Pixel im zu schützenden Bild. Veränderungen, die einem menschlichen Betrachter nicht auffallen, aber dazu führen, dass der Autoencoder beim Training oder beim Finetuning völlig andere, komplett falsche wesentliche Merkmale erkennt. Solche „adversarial attacks“ sind an sich nicht neu und sie funktionieren nicht nur bei KI-Bildgeneratoren, und nicht nur mit digitalen Bilddateien. So haben Forschende beispielsweise die Verkehrszeichen-Erkennung autonomer Autos ausgetrickst, indem sie Aufkleber auf den Schildern anbrachten, die die neuronalen Netze der Autos in die Irre schickten.
Wie ist der Schutz ausgehebelt worden?
Geschützte Bilder zu knacken bedeutet, die störenden Pixel wieder zu entfernen. Die Schwierigkeit dabei ist natürlich, dass der Angreifer nicht weiß, welche Pixel genau er entfernen müsste, um das Bild für den Encoder wieder lesbar zu machen. Robert Hönig und seine Kollegen konnten aber „einfache und gängige Techniken“ wie das Hochskalieren von Bildern oder „die Verwendung eines anderen Feinabstimmungsskripts“ beim Training der KI nutzen, um „robuste Mimikry-Methoden zu entwickeln, die bestehende Schutzmaßnahmen erheblich untergraben“, wie sie in ihrem Paper schreiben. So gäbe es vier Angriffsmethoden, die erfolgreich den Schutz populärer Tools wie Glaze, Mist und Anti-DreamBooth zu entfernen. Drei davon würden nach ihrer Beschreibung keine technischen Kenntnisse erfordern. Die vierte Methode war komplexer.
Lässt sich das reparieren?
Das Glaze-Team reagierte mit einem Kommentar auf seiner Website und einem Update, das jedoch nach Auffassung der Sicherheitsforscher das Problem nicht löst. Denn zum einen lasse sich auch der verbesserte Code noch knacken. Zum anderen hindere nichts einen potenziellen Angreifer daran, geschützte Bilder einfach herunterzuladen. Der Hinweis des Glaze-Teams, Urheber:innen mögen doch bitte einfach ihre Bilder noch einmal mit der neuen Version der Software schützen, sei nutzlos, weil sich einmal heruntergeladene Bilder nicht neu schützen lassen.
Grundsätzliche Sicherheitsfragen
Mittlerweile haben sich die Fronten weiter verhärtet, denn der Streit dreht sich nicht mehr nur um technische Fragen, sondern um Grundsätzliches. Denn Zhao und sein Team weigern sich, den Code von Glaze zu veröffentlichen, um ihn genauer auf weitere Schwachstellen abzuklopfen – mit der Begründung, dass würde Datendieben ermöglichen, gefälschte Versionen des Programms in Umlauf zu bringen, die Bilder stehlen statt sie zu schützen. Daraufhin warfen Carlini und sein Team Zhao vor, „Security by Obscurity“ zu betreiben – Sicherheit durch Geheimhaltung. Ein Konzept, das mittlwerweile ziemlich umstritten ist, und bei vielen Sicherheitsforschern als gescheitert gilt, denn eine absolute Geheimhaltung von Code lässt sich bei einem großen Projekt auf die Dauer nicht realisieren.
In einem Discord-Chat, den Carlini öffentlich machte, behauptete Zhao, dass „Carlini sich einen Dreck um den Schaden schert, der Künstler:innen durch die Veröffentlichung des Angriffs seines Teams entstehen könnte”. Carlinis schrieb daraufhin in seinem Blog: „Manchmal ist es das Beste, einfach den Verband abzureißen. Wenn eine Schwachstelle so unverbesserlich ist, dass eine verzögerte Offenlegung den Schaden nur noch vergrößert, ist es besser, einfach an die Öffentlichkeit zu gehen.“
Fazit
Und jetzt? Die Katze ist aus dem Sack – das Paper zu den Schwachstellen von Glaze und Co. ist veröffentlicht. Die Erfahrung mit vielen ähnlichen Fällen zeigt aber, dass es nichts genützt hätte, das Wissen um die Schwachstellen unter dem Deckel zu halten. Denn „die Bösen“ verfügen über Mittel und Wege, Schwachstellen auch ohne Sicherheitsforscher:innen auszunutzen.
Mit seiner Kritik hat das Team um Carlini zudem einen wunden Punkt getroffen: Schwache, angreifbare Sicherheitstools können tatsächlich eine „falsche Vorstellung von Sicherheit“ vermitteln. Das hilft den betroffenen Kreativen natürlich nicht. Sie müssen fürchten, dass ihre Werke trotz Schutz mit Glaze und Co. weiterhin abgesaugt und geklont werden. Langfristig wird sich Problem aber ohnehin nur politisch und juristisch lösen lassen. Anders gesagt: Das Problem ist nicht die KI, die Stile klont, das Problem ist eine Medienindustrie, der es egal ist, ob Kreative von ihrer Tätigkeit leben können.