Googles neues KI-Modell verwandelt Fotos in sprechende Avatare
Ein Forschungsteam von Google Research hat ein White Paper veröffentlicht, in dem es ein neues KI-Modell mit verblüffenden Fähigkeiten ankündigt. Das Programm mit dem Namen Vlogger braucht laut den Forschenden um Enric Corona nur ein einziges Foto einer Person, um dieses als animierten Avatar zum Leben zu erwecken – samt animierter Mimik, Gestik und passenden Bewegungen.
Vlogger: Mit tausenden Stunden Videomaterial trainiert
Prinzipiell ist Vlogger dazu gedacht, real wirkende Avatare für Chatbots, virtuelle Assistenten, virtual Reality oder Computerspiele zu erstellen. Das Programm kann nicht nur Standbilder animieren, sondern auch in Videos eingesetzt werden.
Das dürfte die Software äußerst attraktiv für die Filmbranche machen, man denke nur an Versuche, bereits verstorbene Schauspieler:innen erneut auf die Leinwand zu bringen, wie zum Beispiel in den neueren Star-Wars-Filmen, oder die Anpassung von Lippenbewegungen an synchronisierte Fassungen.
Vlogger basiert auf Diffusionsmodellen und wurde anhand Trainingsdaten aus dem Mentor-Datensatz trainiert. Dieser beinhaltet über 2000 Stunden hochauflösendes Videomaterial von rund 800.000 Identitäten, wodurch das Programm in der Lage ist, sich an unterschiedliche Faktoren wie Ethnie, Altersgruppe oder Posen anzupassen.
Erstes Vlogger-Material sieht verblüffend echt aus
Tatsächlich wirkt das erste Testmaterial durchaus überzeugend, wenn man bedenkt, dass nur ein einziges Foto als Grundlage für die Animation der Mimik und Gesten benutzt wurde.
Besonders in der Nahaufnahme kommt die Qualität der Animation zur Geltung.
Die Lippen bewegen sich absolut synchron zur Audioaufnahme, die Mimik ist nicht wie bei ähnlichen Anwendungen beliebig, sondern passt sehr überzeugend zum Gesagten. Sogar der Ohrring der Sprecherin baumelt realistisch hin und her. Lediglich der Hintergrund und der Oberkörper sind noch recht statisch. Die Technologie steht ja aber auch noch am Anfang der Entwicklung.
Effizienz der Vlogger-KI macht sie anfällig für Missbrauch
Laut Google Research soll das Programm sehr effizient zu bedienen sein: „Im Gegensatz zu früheren Arbeiten erfordert unsere Methode kein Training für jede einzelne Person, ist nicht auf Gesichtserkennung und -ausschnitt angewiesen, generiert das gesamte Bild und berücksichtigt ein breites Spektrum von Szenarien“.
Genau in dieser Einfachheit der Anwendung liegt aber wohl auch das größte Problem von Vlogger: Die Erstellung überzeugender Deepfakes dürfte dadurch noch einfacher werden. Gefälschte Videos und Fotos sorgen schon jetzt immer wieder für die Verbreitung unwahrer Informationen.
Mit KI-Anwendungen wie Vlogger wird es für Laien (und bald wohl auch Profis) zunehmend unmöglich, reale Aufnahmen von manipulierten zu unterscheiden. Solche Fälschungen dürften dann nicht nur Personen des öffentlichen Lebens betreffen, sondern können in einem unfassbaren Ausmaß zum Nachteil von jedem Einzelnen eingesetzt werden.
Die Autor:innen des Papers räumen die Möglichkeit des Missbrauchs auch ein, allerdings scheint für sie der Nutzen der Anwendung die drohenden negativen Konsequenzen zu überwiegen.