Es mag erstaunen, konnte aber in einer Studie des Londoner University College nachgewiesen werden. Kimberley Mai und ihr Team hatten mehr als 500 Personen mehrere Audioclips vorgespielt.
Zuhörer lassen sich in 3 von 10 Fällen täuschen
Die Zuhörenden sollten dann beurteilen, ob die gehörte Stimme einer echten Person oder einer KI zuzuordnen sei. Dabei enthielten einige Clips die authentische Stimme einer weiblichen Sprecherin, die generische Sätze in Englisch oder Mandarin vorlas. Andere Clips waren Deepfakes, die eine auf weiblichen Stimmen trainierte generative KI erstellt hatte.
Dabei hatten die Wissenschaftler:innen zwei verschiedene Versuchsanordnungen ersonnen. Die eine Anordnung sah vor, den Zuhörenden 20 Stimmproben in ihrer Muttersprache vorzuspielen. Dann sollten sie beurteilen, ob die Clips echt oder gefälscht waren.
Das Ergebnis war ernüchternd. Obwohl sie damit rechnen mussten und sogar positiv wussten, dass sie teils mit KI-Stimmen konfrontiert sein würden, schafften es die Versuchsteilnehmer:innen nur in etwa 70 Prozent der Fälle, die gefälschten und die echten Stimmen richtig zuzuordnen.
Für das Londoner Forschungsteam deutet das darauf hin, dass die Deepfake-Erkennung im wirklichen Leben eher noch schlechter ausfallen wird. Denn außerhalb des Versuchs müssen die Menschen nicht damit rechnen, eine von einer künstlichen Intelligenz erzeugte Stimme zu hören. Das bedeutet für Milliarden von Menschen ein erhebliches Gefährdungspotenzial, wenn sie Deepfake-Betrügereien oder Fehlinformationen ausgesetzt werden.
Zweite Versuchsanordnung läuft besser, ist aber eingeschränkt aussagefähig
Bei der zweiten Versuchsanordnung fiel das Ergebnis deutlich besser aus, dürfte aber nur eingeschränkt aussagekräftig sein. Hier wurden 20 zufällig ausgewählte Paare von Audioclips vorgespielt.
Jedes Paar basierte auf demselben Satz. Der wurde einmal von einem Menschen und einmal von einer KI gesprochen. Jetzt sollten die Teilnehmer:innen erkennen, welche Variante die Fälschung war.
Bei dieser Anordnung stieg die Erkennungsgenauigkeit auf mehr als 85 Prozent. Dass das indes am echten Leben etwas vorbeigeht, räumt Forschungsleiterin Mai auch unumwunden ein:
„Dieser Aufbau ist nicht ganz repräsentativ für reale Szenarien. Die Zuhörer wüssten vorher nicht, ob das, was sie hören, echt ist, und Faktoren wie das Geschlecht und das Alter des Sprechers könnten die Erkennungsleistung beeinflussen.“
Automatische Deepfake-Erkennung extrem wichtig
Hany Farid von der University of California im US-amerikanischen Berkeley hält die Studien insgesamt dennoch für sehr nützlich. Solche Forschungen könnten dazu beitragen, zu bewerten, wie gut KI-generierte Deepfakes den natürlichen Klang menschlicher Stimmen imitieren können, ohne dabei subtile Sprachunterschiede beizubehalten. Die Studie liefere eine nützliche Grundlage für automatische Systeme zur Erkennung von Deepfakes, glaubt Farid.
Übrigens waren Versuche, die Deepfake-Erkennungsfähigkeiten der Teilnehmer:innen zu trainieren, fehlgeschlagen, erläutert Mai. Das gibt der Überzeugung Farids, dass es wichtig ist, KI-gestützte Deepfake-Detektoren zu entwickeln, Nahrung. Mai will nun daran forschen, ob große Sprachmodelle, die ihrerseits Sprachdaten verarbeiten können, diese Aufgabe übernehmen könnten.