Dall‑E oder Stable Diffusion: KI-Bilderflut könnte Fähigkeiten künftiger KI schaden
KI-Bildgeneratoren wie Dall‑E, Midjourney oder Stable Diffusion haben die Herzen von kreativen Internetnutzer:innen im Sturm erobert. Die KI setzt dabei eine Beschreibung in Textform mehr oder weniger exakt in einem Bild um – mit zum Teil erstaunlichen oder gar gruseligen Ergebnissen.
Millionen KI-generierte Bilder im Netz
Trainiert wurden die Systeme mit Milliarden von frei im Internet zur Verfügung stehenden Bildern und entsprechenden Textbeschreibungen. Dass die Bildgeneratoren sich einer so großen Beliebtheit erfreuen, sorgt dafür, dass Millionen der so generierten Bilder wiederum im Internet veröffentlicht werden.
Das könnte zu einem Problem werden, warnen japanische Forscher:innen. Würden künftige KI-Systeme mit den Bildern ihrer Vorgänger gefüttert, könnte das deren Fähigkeiten beeinträchtigen.
Für eine entsprechende Studie hat das Team um Ryuichiro Hataya vom Advanced Data Science Project des Forschungsinstituts Riken zwei Milliarden Bilder mit der Stable-Diffusion-KI erzeugt, wie New Scientist schreibt.
Forscher „kontaminieren“ KI-Trainingsdatensätze
Anschließend ersetzten die Forscher:innen nach dem Zufallsprinzip erst 20, dann 40 und später 80 Prozent der echten Bilder in ihren Trainingsdatensätzen durch die KI-generierten Bilder. Dann trainierten sie ein neues KI-Modell mit den „kontaminierten“ Sammlungen.
Es stellte sich heraus, dass die KI mit zunehmendem Anteil von KI-generierten Bildern im Trainingsdatensatz die Bilder immer weniger gut bestimmten Kategorien zuordnen konnte. Mit dem „sauberen“ Bilddatensatz wurden in 75,6 Prozent der Fälle Bilder richtig zugeordnet. Bei dem zu 80 Prozent „kontaminierten“ Datensatz waren es nur noch 65,3 Prozent.
Qualität der Ergebnisse verschlechtert
Darüber hinaus hat sich laut den Forscher:innen auch die Qualität der Bilder verschlechtert, je stärker mit KI-generierten Bildern trainiert wurde. Sie ähnelten dann immer stark realen Bildern.
Die Forscher:innen haben aber auch schon eine Idee, wie sich das Problem lösen ließe. In den für künftige KI zusammengestellten Trainingsdatensätzen dürften sich schlicht keine KI-generierten Bilder befinden.
Die KI-Expertin Mhairi Aitken vom Londoner Alan Turing Institute stimmt den Erkenntnissen der japanischen Kolleg:innen zwar grundsätzlich zu. Es müssten allerdings noch sehr viel mehr KI-generierte Bilder veröffentlicht werden, bevor ihr Vorhandensein in Trainingsdatensätzen wirklich problematisch werden könne.
Menschliche Aufsicht und Überwachung benötigt
Eine solche Warnung sei aber gut, um noch einmal klarzumachen, dass KI-Systeme menschliche Aufsicht und Überwachung benötigten. Menschen müssten die Ergebnisse der Modelle ebenso überprüfen wie die Prozesse der Auswahl von Trainingsdaten und deren Zusammenstellung, so Aitken.