Deepfakes von Berliner Forschern imitieren den Herzschlag

Forschende stellten einen Deepfake-Detektor auf die Probe. (Symbolbild: Blue Planet Studio/ Shutterstock.com)
Uns Menschen kann man den Herzschlag buchstäblich am Gesicht ablesen: Mit jedem Herzschlag ändert sich das Blutvolumen in unseren Gefäßen, wodurch sie sich ausdehnen und wieder zusammenziehen. Dadurch verändert sich gleichzeitig die Menge an Licht, die von der Haut absorbiert wird. Unser Puls sorgt also dafür, dass unsere Haut ständig minimal und wellenartig ihre Farbe verändert.
Diese Veränderung ist natürlich viel zu subtil, um sie mit menschlichem Auge erkennen zu können. Mit Technologie aber ist das schon länger problemlos und zuverlässig möglich: Photoplethysmographie (PPG) heißt das Verfahren, das etwa Smartwatches verwenden, um mithilfe von Leuchtdioden an der Unterseite die Volumenänderungen im Blut zu erfassen und somit den Puls zu messen. Und durch den Einsatz hochauflösender Kameras ist es sogar möglich, die Pulsmessung komplett per Video zu machen.
Hürde für Deepfakes: Die minimalen Änderungen im Gesicht durch den Puls
Diese Remote Photoplethysmographie (rPPG) kommt nicht nur immer häufiger in der Telemedizin zum Einsatz, sondern beschäftigt auch die KI-Forschung. Sie gilt nämlich als potenzielle Waffe im Kampf gegen Deepfakes, also gegen besonders realistische, KI-generierte Videos von Menschen. Die These: Deepfake-Detektoren können rPPG nutzen, um zuverlässig gefälschte Videos zu erkennen. Denn eine künstliche Intelligenz ist nicht in der Lage, die winzigen Veränderungen durch den Puls in der Gesichtsfarbe wiederzugeben.
Nun aber zeigen Forscherinnen und Forscher der Humboldt-Universität zu Berlin und des Fraunhofer Heinrich-Hertz-Institute HHI, dass die Hoffnung womöglich nur kurzlebig war: In einer Studie, die soeben im Fachmagazin Frontiers in Imaging erschienen ist, demonstrieren sie, dass moderne Deepfake-Tools durchaus den Herzschlag imitieren können. „Unsere Experimente haben gezeigt, dass Deepfakes realistische Herzfrequenzen aufweisen können, was früheren Erkenntnissen widerspricht“, schreiben sie.
Computergenerierte Clips enthalten menschlichen Herzschlag
Um das zu testen, hat das Team eine eigene „Deepfake-Pipeline“ aufgebaut. Sie besteht zum einen aus einem eigens entwickelten Deepfake-Detektor, der auf rPPG optimiert ist. Also darauf, subtile Biosignale wie die Veränderung der Hautfarbe zu erkennen. Zum anderen haben sie einen Deepfake-Generator entwickelt, den sie mit Videos von den Gesichtern von insgesamt zwölf Menschen trainiert haben. Die Probanden wurden jeweils in kurzen Interaktionen und aus verschiedenen Perspektiven gefilmt. Daraus entstanden schließlich 32 Deepfake-Videos, die sich für das menschliche Auge kaum von den Originalen unterscheiden ließen.
Um zu bestätigen, dass der Detektor zuverlässig die Biosignale erkennen kann, wurden die Teilnehmenden bei der Aufnahme der Videos zusätzlich mit einem Elektrokardiogramm (EKG) versehen, um ihren Puls auf die traditionelle Art und Weise zu messen und die Werte mit denen der rPPG zu vergleichen. Tatsächlich konnte die Erkennungssoftware den Herzschlag in den echten Videos analog zu den Werten des EKG identifizieren – und somit bestätigen, dass diese echt waren.
Bei den gefälschten Videos dagegen sollte der Detektor gemäß der gängigen These bestimmen, dass es sich um einen Deepfake handelt. Denn diese sollten schließlich keine Biosignale enthalten. Umso erstaunter waren die Forschenden, als der Detektor nicht anschlug. Mehr noch, er erkannte auch in den computergenerierten Clips einen realistischen Herzschlag.
Offenbar war die KI in der Lage, die subtilen Veränderungen in der Hautfarbe in den Trainingsdaten zu erkennen und diese bei der Erzeugung von Deepfakes anzuwenden. Das ist umso erstaunlicher, wenn man bedenkt, dass die echten Clips jeweils nur wenige Sekunden lang waren.
Die Messlatte für Deepfake-Erkennung liegt immer höher
„Dieses Ergebnis stellt die Annahme infrage, dass Deepfakes von Natur aus keine gültigen physiologischen Signale aufweisen, und unterstreicht die Notwendigkeit von Erkennungsmethoden, die über eine einfache Pulserkennung hinausgehen“, heißt es in der Studie.
Zwar weisen die Forscherinnen und Forscher darauf hin, dass die Anwendung von Remote Photoplethysmographie in der Bekämpfung von Deepfakes bislang ohnehin begrenzt gewesen sei, da die Videoqualität vieler Datensätze zu schlecht sei, um die subtilen Veränderungen messen zu können. Gleichzeitig zeige die Studie aber, dass Deepfakes, die mit modernsten Modellen und qualitativ hochwertigen Trainingsdaten erzeugt werden, eine bis dato unbekannte physiologische Konsistenz aufweisen.
Im Hinblick darauf, dass Deepfakes zu einem gesellschaftlichen Problem geworden sind, das sich in den kommenden Jahren noch verschärfen könnte, liegt die Messlatte für die Erkennung von KI-Videos immer höher. Schon jetzt ist es für viele Menschen kaum mehr möglich, professionelle Deepfakes zu identifizieren. Es bedarf deshalb neuer, möglichst zuverlässiger Methoden – und das am besten so schnell wie möglich.