Die Deepfakes dieses Startups erreichen ein völlig neues Level: Sie tanzen, gestikulieren und zeigen Gefühle
Die KI-generierten Avatare des Startups Synthesia aus London erhalten ein Update, das sie noch realistischer macht: Sie werden bald Körper haben, die sich bewegen können – und Hände, die realistisch gestikulieren.
Die neuen Ganzkörper-Avatare sollen in der Lage sein, Dinge zu tun wie etwa zu singen oder ein Mikrofon zu halten, während sie tanzen – oder sich hinter einem Schreibtisch zu bewegen oder durch einen virtuellen Raum zu gehen. Außerdem können sie komplexere Emotionen als bisher ausdrücken, etwa Aufgeregtheit, Angst oder Nervosität, erklärt Victor Riparbelli, CEO des Unternehmens. Synthesia beabsichtigt, die neuen Avatare bis Ende des Jahres auf den Markt zu bringen.
KI-Video-Experte Jack Saunders, Forscher an der University of Bath, hält die Technik für beeindruckend. Seiner Ansicht nach seien andere Systeme dazu nicht in der Lage. Die Ganzkörper-Avatare, die er in einer Vorschau gesehen hat, seien sehr gelungen, sagt er – trotz kleiner Fehler, zum Beispiel Händen, die manchmal ineinander zu verschwimmen scheinen. Aber „die Chancen stehen gut, dass man nicht so genau hinschaut, um es zu bemerken“, sagt Saunders.
Synthesia hatte bereits im April eine erste Version von neuen „hyperrealistischen“ KI-Avataren gezeigt. Diese Deepfake-Avatare verwenden umfangreiche Sprachmodelle, um Mimik und Tonfall an die Stimmung des gesprochenen Textes anzupassen. Diffusionsmodelle, wie sie in bild- und videogenerierenden KI-Systemen verwendet werden, erzeugen das Aussehen des Avatars, das allerdings von echten Schauspielern stammt. Die Avatare dieser Generation werden nur vom Oberkörper aufwärts angezeigt, was den Realismusfaktor beeinträchtigt, was dieses Instagram-Reel der Autorin dieser Zeilen zeigt.
Von mehreren Seiten
Um die Ganzkörper-Avatare zu erstellen, baut Synthesia ein noch größeres KI-Modell als zuvor auf. Wer einen eigenen Avatar haben möchte, um beispielsweise Schulungsvideos zu erstellen, muss in ein Studio gehen, um die Körperbewegungen aufzuzeichnen. Schon bevor diese Ganzkörper-Avatare verfügbar sein werden, bringt das Unternehmen eine weitere Version von KI-Avataren auf den Markt, die über Hände verfügen und sich aus mehreren Winkeln darstellen lassen.
Konkurrierende Startups wie Hour One haben ähnliche Avatare mit Händen auf dem Markt. Die Version von Synthesia, die MIT Technology Review im Rahmen einer Forschungsvorschau überprüfen konnte und die Ende Juli auf den Markt kommen wird, verfügt über etwas realistischere Handbewegungen und eine bessere Lippensynchronisation. Entscheidend ist, dass es mit dem kommenden Update auch viel einfacher wird, einen eigenen personalisierten Avatar zu erstellen. Bei den bisherigen KI-Avataren des Unternehmens mussten die Nutzer bislang in ein professionelles Studio gehen, um ihr Gesicht und ihre Stimme über einen Zeitraum von mehreren Stunden aufzunehmen.
Nun kann das benötigte Material in nur zehn Minuten mit einer digitalen Kamera, einem Ansteckmikrofon und einem Laptop aufgenommen werden. Aber auch eine noch einfachere Ausrüstung, wie zum Beispiel eine Laptop-Kamera, soll ausreichen. Während man früher Gesichtsbewegungen und Stimme getrennt aufzeichnen musste, werden die Daten nun gleichzeitig erfasst. Der Prozess umfasst auch das Ablesen eines Skripts, in dem der Aufgezeichnete sein Einverständnis erklärt, sowie das Vorlesen eines zufällig generierten Sicherheitspassworts.
Diese Neuerungen könnten Synthesia erlauben, schneller zu skalieren und mehr Kunden zu finden. Gleichzeitig werden die KI-Modelle besser und kommen mit weniger Daten zurecht, sagt Riparbelli. Die Ergebnisse sind auch viel schneller da: Während man im Frühjahr noch einige Wochen auf einen im Studio erstellten Avatar warten musste, sind die neuen selbst erstellten Avatare bereits innerhalb von Stunden verfügbar.
Realitätsnahe Loops
Die neuen Avatare sind noch nicht so ausdrucksstark wie die im Studio hergestellten, und die Benutzer können die Hintergründe ihrer Avatare nicht ändern, erläutert Alexandru Voica, Kommunikations- und Policy-Chef bei Synthesia. Die Hände werden mit einer fortschrittlichen Loop-Technologie animiert, die dieselben Handbewegungen in einer Weise wiederholt, die auf den Inhalt des Skripts reagieren soll, das der Avatar vorträgt.
Hände seien für KI-Systeme schwierig zu animieren – sogar noch schwieriger als Gesichter, erläuterte Vittorio Ferrari, der wissenschaftliche Leiter von Synthesia, bereits im März. Während sich der Mund beim Sprechen auf relativ kleine und vorhersehbare Weise bewegt, sodass es möglich ist, die Deepfake-Version mit Sprache zu synchronisieren, sieht das beim Händeausdruck noch anders aus. Immerhin: Während Gesichter eine hohe Detailgenauigkeit erfordern, weil wir uns auf sie konzentrieren, können Hände weniger präzise sein, sagt Ferrari.
Illusion von Realismus
Selbst wenn sie unvollkommen sind, tragen die von Synthesia KI-generierten Hände und Körper viel zur Illusion von Realismus bei, was in einer Zeit, in der Fake News im Internet zunehmen, ernsthafte Risiken birgt. Synthesia verfolgt deshalb strenge Richtlinien zur Inhaltsmoderation und prüft sowohl seine Kunden als auch die Art der Inhalte, die diese erstellen können, laut eigenen Angaben sorgfältig. So können beispielsweise nur akkreditierte Medien Inhalte zum Thema Nachrichten erstellen. Hauptzielgruppe sind Unternehmen, die aus langweiligen Präsentationen oder Schulungsunterlagen Videos erstellen wollen.
Solche Fortschritte in der Avatar-Technologie nagten weiter an unserer Fähigkeit, Echtes von Falschem zu unterscheiden, glaubt Forscher Saunders. „Die Menschen müssen sich klar werden, dass man bald nichts mehr glauben kann“, sagt er. Dass, was Synthesia jetzt mache, werde in einem Jahr noch besser werden und von anderen Unternehmen eingesetzt. Die zeigen sich dann womöglich deutlich verantwortungsloser als das Londoner Startup mit seinen Filtern.