Fotorealistische Bilder in 90 Millisekunden: Wie diese Bild-KI an der Konkurrenz vorbeizieht
Ein Team von Forschern des Massachusetts Institute of Technology (MIT) und Adobe hat einen KI-Bildgenerator entwickelt, der Bilder in einer mit Stable Diffusion 1.5 vergleichbaren Qualität erzeugen soll, dabei aber 30-mal so schnell ist.
Auf Basis dieser Technik können Bilder nahezu in Echtzeit generiert werden. Das eröffnet einige interessante Möglichkeiten. Laut dem Paper der Wissenschaftler kann das Modell bereits bis zu 20 Bilder pro Sekunde erzeugen. Zum Vergleich: Kinofilme haben üblicherweise eine Bildrate von 24 Bildern pro Sekunde.
So funktioniert die pfeilschnelle Bild-KI
Diffusionsmodelle wie Stable Diffusion funktionieren vereinfacht ausgedrückt so: Einem klaren Bild wird beim Training nach und nach visuelles Rauschen zugesetzt, bis es völlig unkenntlich gemacht wurde. Anhand dieses Trainings lernt das Diffusionsmodell, diesen Prozess in umgekehrter Richtung auszuführen und macht so aus Bildrauschen jedes gewünschte Bild.
Dieser Prozess verläuft über mehrere Schritte, um am Ende ein möglichst realistisches Bild zu erzeugen. All diese Schritte kosten jedoch Zeit und nicht zuletzt auch Rechenkapazität. Genau da setzt das Team vom MIT jetzt an.
Ihr Bildgenerator wurde zum einen an echten Bildern trainiert, zum anderen aber auch an den Bildern, die von der KI wieder „entrauscht“ wurden. Anschließend wird die Differenz aus beidem dafür genutzt, das erzeugte Bild mehr wie das Original aussehen zu lassen. So sollen überzeugende Ergebnisse in deutlich weniger Zeit entstehen.
Die Vorteile einer immer schnelleren Bild-KI
Wenn sich realistische Bilder mit KI in Echtzeit erstellen ließen, würde das eine ganze Reihe von neuen Möglichkeiten eröffnen. Erst kürzlich hatte beispielsweise Nvidia-CEO Jensen Huang prognostiziert, dass wir in fünf bis zehn Jahren vollständig KI-generierte Spielszenen sehen werden.
Ob das so kommt, bleibt abzusehen. Das Potenzial ist aber klar: Wenn Videospiele in Echtzeit Bildern fotorealistische Bilder erzeugen könnten, wie es jetzt bereits OpenAIs Video-KI Sora kann, dann würde das den Realitätsgrad dieser Spiele noch einmal deutlich erhöhen, und es gäbe kaum mehr einen Unterschied zwischen Spielfilmen und Video-Games.