Googles neues KI-Modell verwandelt Fotos in sprechende Avatare
Ein Forschungsteam von Google Research hat ein White Paper veröffentlicht, in dem es ein neues KI-Modell mit verblüffenden Fähigkeiten ankündigt. Das Programm mit dem Namen Vlogger braucht laut den Forschenden um Enric Corona nur ein einziges Foto einer Person, um dieses als animierten Avatar zum Leben zu erwecken – samt animierter Mimik, Gestik und passenden Bewegungen.
Vlogger: Mit tausenden Stunden Videomaterial trainiert
Prinzipiell ist Vlogger dazu gedacht, real wirkende Avatare für Chatbots, virtuelle Assistenten, virtual Reality oder Computerspiele zu erstellen. Das Programm kann nicht nur Standbilder animieren, sondern auch in Videos eingesetzt werden.
Das dürfte die Software äußerst attraktiv für die Filmbranche machen, man denke nur an Versuche, bereits verstorbene Schauspieler:innen erneut auf die Leinwand zu bringen, wie zum Beispiel in den neueren Star-Wars-Filmen, oder die Anpassung von Lippenbewegungen an synchronisierte Fassungen.
Vlogger basiert auf Diffusionsmodellen und wurde anhand Trainingsdaten aus dem Mentor-Datensatz trainiert. Dieser beinhaltet über 2000 Stunden hochauflösendes Videomaterial von rund 800.000 Identitäten, wodurch das Programm in der Lage ist, sich an unterschiedliche Faktoren wie Ethnie, Altersgruppe oder Posen anzupassen.
Erstes Vlogger-Material sieht verblüffend echt aus
Tatsächlich wirkt das erste Testmaterial durchaus überzeugend, wenn man bedenkt, dass nur ein einziges Foto als Grundlage für die Animation der Mimik und Gesten benutzt wurde.
Besonders in der Nahaufnahme kommt die Qualität der Animation zur Geltung.
Die Lippen bewegen sich absolut synchron zur Audioaufnahme, die Mimik ist nicht wie bei ähnlichen Anwendungen beliebig, sondern passt sehr überzeugend zum Gesagten. Sogar der Ohrring der Sprecherin baumelt realistisch hin und her. Lediglich der Hintergrund und der Oberkörper sind noch recht statisch. Die Technologie steht ja aber auch noch am Anfang der Entwicklung.
Effizienz der Vlogger-KI macht sie anfällig für Missbrauch
Laut Google Research soll das Programm sehr effizient zu bedienen sein: „Im Gegensatz zu früheren Arbeiten erfordert unsere Methode kein Training für jede einzelne Person, ist nicht auf Gesichtserkennung und -ausschnitt angewiesen, generiert das gesamte Bild und berücksichtigt ein breites Spektrum von Szenarien“.
Genau in dieser Einfachheit der Anwendung liegt aber wohl auch das größte Problem von Vlogger: Die Erstellung überzeugender Deepfakes dürfte dadurch noch einfacher werden. Gefälschte Videos und Fotos sorgen schon jetzt immer wieder für die Verbreitung unwahrer Informationen.
Mit KI-Anwendungen wie Vlogger wird es für Laien (und bald wohl auch Profis) zunehmend unmöglich, reale Aufnahmen von manipulierten zu unterscheiden. Solche Fälschungen dürften dann nicht nur Personen des öffentlichen Lebens betreffen, sondern können in einem unfassbaren Ausmaß zum Nachteil von jedem Einzelnen eingesetzt werden.
Die Autor:innen des Papers räumen die Möglichkeit des Missbrauchs auch ein, allerdings scheint für sie der Nutzen der Anwendung die drohenden negativen Konsequenzen zu überwiegen.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team