Googles neues KI-Modell verwandelt Fotos in sprechende Avatare

News

Googles neues KI-Modell verwandelt Fotos in sprechende Avatare

Google stellt mit Vlogger eine KI-Software vor, die aus einem Einzelfoto ein animiertes Video zaubern kann. Gerade die angebliche Effizienz der Anwendung birgt allerdings einige Gefahren.

Von Christian Weindl

20.03.2024, 19:00 Uhr • 2 Min.

Googles neues KI-Modell verwandelt Fotos in sprechende Avatare — Ein Foto reicht Vlogger aus, um eine verblüffend realistische Animation zu erstellen. (Symbolfoto: metamorworks/Shutterstock)

Ein Forschungsteam von Google Research hat ein White Paper veröffentlicht, in dem es ein neues KI-Modell mit verblüffenden Fähigkeiten ankündigt. Das Programm mit dem Namen Vlogger braucht laut den Forschenden um Enric Corona nur ein einziges Foto einer Person, um dieses als animierten Avatar zum Leben zu erwecken – samt animierter Mimik, Gestik und passenden Bewegungen.

Vlogger: Mit tausenden Stunden Videomaterial trainiert

Prinzipiell ist Vlogger dazu gedacht, real wirkende Avatare für Chatbots, virtuelle Assistenten, virtual Reality oder Computerspiele zu erstellen. Das Programm kann nicht nur Standbilder animieren, sondern auch in Videos eingesetzt werden.

Empfehlungen der Redaktion

News

KI von Stability AI erobert die dritte Dimension: Das kann Stable Video 3D

News

Videopoet: Neue Google-KI macht aus Textanfragen kurze Filme

News

KI von Stability AI erobert die dritte Dimension: Das kann Stable Video 3D

Das dürfte die Software äußerst attraktiv für die Filmbranche machen, man denke nur an Versuche, bereits verstorbene Schauspieler:innen erneut auf die Leinwand zu bringen, wie zum Beispiel in den neueren Star-Wars-Filmen, oder die Anpassung von Lippenbewegungen an synchronisierte Fassungen.

Vlogger basiert auf Diffusionsmodellen und wurde anhand Trainingsdaten aus dem Mentor-Datensatz trainiert. Dieser beinhaltet über 2000 Stunden hochauflösendes Videomaterial von rund 800.000 Identitäten, wodurch das Programm in der Lage ist, sich an unterschiedliche Faktoren wie Ethnie, Altersgruppe oder Posen anzupassen.

Erstes Vlogger-Material sieht verblüffend echt aus

Tatsächlich wirkt das erste Testmaterial durchaus überzeugend, wenn man bedenkt, dass nur ein einziges Foto als Grundlage für die Animation der Mimik und Gesten benutzt wurde.

Besonders in der Nahaufnahme kommt die Qualität der Animation zur Geltung.

Die Lippen bewegen sich absolut synchron zur Audioaufnahme, die Mimik ist nicht wie bei ähnlichen Anwendungen beliebig, sondern passt sehr überzeugend zum Gesagten. Sogar der Ohrring der Sprecherin baumelt realistisch hin und her. Lediglich der Hintergrund und der Oberkörper sind noch recht statisch. Die Technologie steht ja aber auch noch am Anfang der Entwicklung.

Effizienz der Vlogger-KI macht sie anfällig für Missbrauch

Laut Google Research soll das Programm sehr effizient zu bedienen sein: „Im Gegensatz zu früheren Arbeiten erfordert unsere Methode kein Training für jede einzelne Person, ist nicht auf Gesichtserkennung und -ausschnitt angewiesen, generiert das gesamte Bild und berücksichtigt ein breites Spektrum von Szenarien“.

Genau in dieser Einfachheit der Anwendung liegt aber wohl auch das größte Problem von Vlogger: Die Erstellung überzeugender Deepfakes dürfte dadurch noch einfacher werden. Gefälschte Videos und Fotos sorgen schon jetzt immer wieder für die Verbreitung unwahrer Informationen.

Mit KI-Anwendungen wie Vlogger wird es für Laien (und bald wohl auch Profis) zunehmend unmöglich, reale Aufnahmen von manipulierten zu unterscheiden. Solche Fälschungen dürften dann nicht nur Personen des öffentlichen Lebens betreffen, sondern können in einem unfassbaren Ausmaß zum Nachteil von jedem Einzelnen eingesetzt werden.

Die Autor:innen des Papers räumen die Möglichkeit des Missbrauchs auch ein, allerdings scheint für sie der Nutzen der Anwendung die drohenden negativen Konsequenzen zu überwiegen.

Mehr zu diesem Thema

MIT Technology Review Google Künstliche Intelligenz

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Brands

Themen

Magazine

Skills

Googles neues KI-Modell verwandelt Fotos in sprechende Avatare

Vlogger: Mit tausenden Stunden Videomaterial trainiert

Erstes Vlogger-Material sieht verblüffend echt aus

Effizienz der Vlogger-KI macht sie anfällig für Missbrauch