Mad: Wenn Bild-KI von Bild-KI lernt, wird es richtig sonderbar
In Zeiten, in denen die Fortschritte von KI rasanter denn je zu sein scheinen, ist die Versuchung groß: Nichts scheint einfacher (oder auch logischer), als synthetische Daten zum Trainieren von KI-Modellen der nächsten Generation zu verwenden. Doch die Ergebnisse – besonders bei wiederholtem Training auf Basis KI-generierter Daten – lassen mehr als nur zu wünschen übrig, wie eine Studie der texanischen Rice University in Zusammenarbeit mit der Stanford University zeigt.
Autophagische Schleife: Wenn KI sich selbst verzehrt
Fünf Trainingsiterationen reichen schon aus, um generative KI „mad“ (dt. „wahnsinnig“) werden zu lassen. „MAD“ steht in diesem Fall für „Model Autophagy Disorder“: Diesen Begriff in Anlehnung an die Mad Cow Disease (Rinderwahnsinn) verwenden die Wissenschaftler:innen, um zu beschreiben, wie KI-Modelle und ihre Ausgabequalität zusammenbrechen, wenn sie wiederholt mit KI-generierten Daten trainiert werden.
„Durch die Wiederholung dieses Prozesses entsteht eine autophagische (sich selbst verzehrende) Schleife, deren Eigenschaften nur unzureichend verstanden werden“, heißt es in der Studie. Die Wissenschaftler aus den Bereichen Elektro- und Computertechnik, Statistik sowie angewandter Computermathematik fokussierten StyleGAN-Modelle, die Bilder in einem einzigen Durchgang erstellen, und Diffusionsmodelle, die viele Schritte verwenden, um schrittweise ein klares Bild zu erzeugen.
Sie trainierten KI entweder mit KI-generierten Bildern oder echten Bildern. Letztere bestanden aus 70.000 Fotos von menschlichen Gesichtern, die vom Online-Fotodienst Flickr stammten.
Es zeigte sich: Innerhalb weniger Generationen erschienen wellige visuelle Muster auf den menschlichen Gesichtern, die vom StyleGAN-Bildgenerator erzeugt wurden, während die Ergebnisse des Diffusionsbildgenerators zunehmend verschwommen wurden.
Cool paper from my friends at Rice. They look at what happens when you train generative models on their own outputs…over and over again. Image models survive 5 iterations before weird stuff happens.https://t.co/JWPyRwhW8o
Credit: @SinaAlmd, @imtiazprio, @richbaraniuk pic.twitter.com/KPliZCABd4
— Tom Goldstein (@tomgoldsteincs) July 7, 2023
„Die sinkende Bildqualität kann durch die Auswahl von KI-generierten Bildern von höherer Qualität für die Verwendung im Training verlangsamt werden. Aber dieser Ansatz kann dazu führen, dass KI-generierte Bilder ähnlicher aussehen“, heißt es in einer Einschätzung des Portals Newscientist. Auch die Verwendung eines festen Sets an echten Bildern in der Trainingsumgebung verzögerte die Verschlechterung lediglich.
Der vielversprechendste Ansatz: die Kombination aus KI-generierten Bildern und einem sich ständig ändernden Satz realer Bilder. Auch dies verringerte den Rückgang der Qualität – „aber nur so lange, wie die Menge der von KI generierten Daten, die im Training verwendet wurden, auf einen bestimmten Schwellenwert begrenzt war.“
Autophagische Störung nicht auf KI-Bilder beschränkt
Dieser „selbstverzehrende“ Mechanismus ist nicht auf Bilder beschränkt, sondern kann alle KI-Modelle betreffen, auch große Sprachmodelle: Sie „neigen […] dazu, MAD zu werden, wenn sie mit ihren eigenen Ausgaben trainiert werden“, schreibt Francisco Pires für das Portal Tomshardware.com. Derlei Forschung biete eine Möglichkeit, „in die Blackbox der KI-Entwicklung zu blicken. Und sie zerschmettert jede Hoffnung, dass wir eine endlose Quelle von Daten gefunden hatten, indem wir aus bestimmten KI-Modellen ein Hamsterrad gemacht hatten: es mit Daten zu versorgen und dann seine eigenen Daten wieder einzuspeisen, um mehr Daten zu generieren, die dann wieder zurückgesandt werden.“
Zu diesem Schluss kommen auch die Forscher:innen der Rice University: „Unsere wichtigste Schlussfolgerung für alle Szenarien ist, dass künftige generative Modelle ohne genügend neue reale Daten in jeder Generation […] dazu verdammt sind, in ihrer Qualität oder Vielfalt immer weiter abzunehmen.“