KI liest euch Hörbücher in eurer eigenen Stimme vor
Eine Forschungsgruppe bestehend aus Mitarbeiter:innen von Microsoft, dem MIT und dem Projekt Gutenberg arbeitet derzeit zusammen, um eine Stimm-KI zu entwickeln, die mit realistischer Stimmlage und Betonung Bücher vorliest. Besonders erfreulich: Der Service soll kostenlos sein.
Projekt Gutenberg: Tausende Stunden Hörbücher kostenlos hören
Die Ankündigung in Form eines Arxiv-Preprints verspricht, den enormen Arbeits- und Kostenaufwand bei der Produktion von Hörbüchern enorm verringern zu wollen und die Vielzahl an kostenlosen Büchern auf Projekt Gutenberg von KI-Stimmen zu lesen lassen, die „Menschenqualität“ entsprechen.
Derzeit gibt es auf Projekt Gutenberg um die 5.000 kostenlosen Bücher – in der Regel solche von Autor:innen, die seit mehr als 70 Jahren verstorben sind, wodurch ihre Werke nicht mehr dem Urheberrecht unterliegen. Die kann man schon jetzt in Form von 35.000 Stunden Audio anhören.
Stimm-KI erkennt Emotionen im Text und passt sich an
Das Problem bei solchen automatisierten Hörbüchern waren bislang die roboterhaften Stimmen, die recht monoton und unnatürlich klingen. Wie Microsofts Software-Engineer Brendan Walsh gegenüber Techxplore erklärt hat, will man ein KI-Sprachmodell entwickeln, das vom Text auf Emotionen schlussfolgern und diese dementsprechend in die Lesestimme einbauen kann. Die Betonung passt sich also automatisch dem Inhalt des Buches an.
Die Software soll außerdem Dialoge im Text identifizieren und diese mit unterschiedlichen Stimmen vorlesen können. So wird das Vorleseerlebnis deutlich lebendiger.
Derzeit arbeitet das Team an einer Live-Demonstration, bei der Teilnehmer:innen ein Buch in ihrer eigenen Stimme vorlesen lassen können. Dazu braucht das Programm nur einige Sprach-Samples der jeweiligen Person, den Rest berechnet es selbst und erzeugt dadurch innerhalb kürzester Zeit ein komplettes Hörbuch mit der entsprechenden Stimme.
Diese Option soll für alle Bücher der Gutenberg-Internet-Bibliothek verfügbar sein. Dazu gibt man einige Sprachbeispiele ab und erhält im Anschluss eine E-Mail mit einem Link zum fertigen Audiobuch.
Synchron mit Originalstimme: In Sprach-KI steckt großes Potenzial
Was für viele Schauspieler:innen einen lukrativen Verdienst abseits der Bühnen und Kameras wegbrechen ließe, könnte für ganz große Namen durchaus lohnenswert sein. Zum Beispiel wenn Stars mit markanten Stimmen sich deren Klang lizensieren und bei KI-Verwendung entsprechend vergüten lassen könnten.
Die Bezahlung dürfte geringer ausfallen, dafür wären auch keine Stunden über Stunden im Tonstudio mehr notwendig. Einen Markt gäbe es sicher: Welche Autor:innen möchten nicht gerne ihr Werk von Hollywood-Größen oder deren Synchronstimmen lesen lassen?
Apropos synchron: Software dieser Art könnte in Zukunft auch Synchronsprecher:innen überflüssig machen, weil die KI-Stimmen der Original-Darsteller:innen ja jeden Text sprechen könnten – mit etwas Bastelei sicher auch in anderen Sprachen.
Von Fake-News-Gefahren, Fun-Apps und Fälschungen bis hin zur „Wiedererweckung“ verstorbener Menschen in stimmlicher Form – in wirklich intelligenter Sprach-KI steckt in jedem Fall unglaubliches Potenzial.