
Der Bildgenerator Stable Diffusion. (Foto: Zhuravlev Andrey / Shutterstock)
Wer einen Bildgenerator benutzt, hat sich sicherlich schon einmal gefragt, woher die Trainingsdaten der künstlichen Intelligenz eigentlich kommen. Diffusionsmodelle werden darauf trainiert, Bilder aus dem Internet zu verwenden. Die Nutzung ist dabei aus Urhebergründen potenziell riskant, da die KI gerne auf alles zurückgreift, was sie so finden kann.
Die Modelle wie Stable Diffusion werden oft an urheberrechtlich geschützten, markenrechtlich geschützten, privaten und sensiblen Bildern geschult. Forscher haben jetzt untersucht, ob die KI auch mit selbst generiertem Bildmaterial arbeitet.
Dabei ist ihnen aufgefallen, dass sich die KI teilweise Bilder merkt und eine nahezu identische Kopien eines beliebigen Bildes erzeugt. Viele dieser Bilder sind urheberrechtlich geschützt oder lizenziert und zeigen explizite Fotos von Einzelpersonen.
Auswirkungen auf die Zukunft?
Einer der mitwirkenden Forscher, Eric Wallace, äußerte sich bei Twitter zu dem Paper: „Ich persönlich habe viele Gedanken zu diesem Paper. Erstens sollte jeder seine Daten deduplizieren, da dies das Auswendiglernen verringert. In seltenen Fällen können wir jedoch immer noch nicht duplizierte Bilder extrahieren!“, schreibt Wallace und gibt Nutzern mit auf den Weg, die heutigen Modelle nicht auf datenschutzrelevante Domänen anzuwenden.
„Schließlich gibt es noch offene Fragen zu den Auswirkungen unserer Arbeit auf laufende Klagen gegen StabilityAI, OpenAI, GitHub“, schreibt Wallace weiter. Insbesondere Modelle, die sich Trainingspunkte merken, könnten durch Gesetze wie das Urheberrecht, das US-Markenschutzrecht oder die DSGVO Probleme bekommen.