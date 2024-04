Vasa-1 heißt die neue KI von Microsoft, die das Unternehmen in einem ausführlichen Blogbeitrag vorstellt. Die künstliche Intelligenz ist in der Lage, Fotos von Personen in Videos zu verwandeln. Wie das in Aktion aussieht, seht ihr in diesem Video:

Wie funktioniert Vasa-1?

Sobald ein Foto in Vasa-1 hochgeladen wurde, erstellt die KI daraus ein Modell, das animiert werden kann. Im Gegensatz zu anderen künstlichen Intelligenzen könnt ihr dieses Modell sogar bewegen und drehen. Selbst ohne eine Fotovorlage – etwa von der Seite des Kopfes – erstellt Vasa-1 ein komplettes Modell.

Sobald ihr nun eine Audiodatei in Vasa-1 einspeist, fangen die Modelle an, diesen Text nachzusprechen. Die Lippenbewegungen sind dabei schon sehr akkurat. Zudem spielen die animierten Gesichter mit ihrer Mimik, schauen in Pausen nicht mehr direkt in die virtuelle Kamera oder neigen den Kopf. Sogar unterschiedliche Einstellungen zu Emotionen sind laut Microsoft möglich.

Über diese neue Technik kann Microsoft Videos von 512 mal 512 Pixeln bei 45 Bildern pro Sekunde anfertigen. Vasa-1 könnte sogar einen Online-Streaming-Modus bieten, der dann Videos mit bis zu 40 Bildern pro Sekunde ermöglicht. Denkbar wäre also etwa, dass Livestreamer die Technik nutzen können, um ihr Gesicht durch ein virtuelles Abbild auszutauschen, aber Lippensynchronität beizubehalten.

Wofür soll Vasa-1 genutzt werden?

Künftig könnte die neue KI zum Einsatz kommen, wenn Charaktere in Videospielen, Filmen und Musikvideos animiert werden sollen. Zudem spricht das Unternehmen davon, dass Vasa-1 die Barrierefreiheit für Menschen mit Spracheinschränkungen erhöhen oder als therapeutischer Support dienen könnte.

Microsoft betont allerdings, dass es sich hierbei bislang nur um ein Forschungsprojekt handelt. Vasa-1 ist (noch) nicht für die Öffentlichkeit gedacht. Denn neben den Möglichkeiten gibt es auch Risiken, derer sich Microsoft bewusst ist. So könnte Vasa-1 missbraucht werden, um Menschen hinters Licht zu führen und Falschinformationen zu streuen.

Microsoft möchte zunächst sicherstellen, dass solche Videos einwandfrei identifiziert werden können – selbst wenn die Technologie weiter voranschreitet und die Clips noch realistischer aussehen.

