Die Welt der künstlichen Intelligenz schreitet mit großen Schritten voran, und das Generieren von Bildern oder Texten durch KI ist bereits gängige Praxis. Nun hat ein Entwickler jedoch einen Schritt weiter gemacht: Er hat eine Voice-KI so programmiert, dass sie in der Lage ist, Live-Ereignisse zu kommentieren.
Diese Technologie nutzt Bilder, die im Fünf-Sekunden-Takt aufgenommen werden, um eine fortlaufende Erzählung zu erstellen. Als besonderes Highlight imitiert die KI die Stimme und den Erzählstil von David Attenborough, dem legendären Sprecher von BBC-Dokumentationen.
Charlie Holtz, ein selbsternannter Hacker in Residence und KI-Spezialist, hat eine Demonstration dieser Technologie auf der Plattform X geteilt.
Jeder kann sein Leben von David Attenborough kommentieren lassen
Für alle, die schon immer davon geträumt haben, ihr eigenes Leben von der unverwechselbaren Stimme einer BBC-Legende kommentieren zu lassen, gibt es gute Nachrichten.
Charlie Holtz hat zusammen mit drei weiteren Mitwirkenden alles Notwendige auf GitHub veröffentlicht. Allerdings ist ein gewisses Maß an Programmierkenntnissen erforderlich, um das Programm nutzen zu können.
Es basiert auf GTP-4-Vision, einem Teil von ChatGPT, der für die Bildanalyse zuständig ist, sowie einem Python-Skript von Eleven Labs. Eleven Labs ist ein Unternehmen, das sich auf generative Sprach-KI spezialisiert hat, also auf Text-to-Speech-Technologien mit KI-generierten Stimmen.
In seiner Demonstration zeigt Holtz, wie er seine Webcam verwendet, die alle fünf Sekunden ein Bild aufnimmt. Diese Bilder werden dann mit der Erzählstimme von David Attenborough analysiert, um eine einzigartige Erzählung des Alltags zu erstellen.
KI macht große Sprünge
Die Fortschritte künstlicher Intelligenz beschränken sich nicht nur auf Stimmen; auch im Bereich der Videogenerierung sind Entwicklungen zu verzeichnen. Laut einem KI-Experten könnten bereits Anfang 2024 Video-Generatoren öffentlich zugänglich sein, die in der Lage sind, fotorealistische Videos zu erstellen.
Diese Technologie eröffnet zwar faszinierende neue Möglichkeiten, bringt aber auch gewisse Risiken mit sich. Diese Risiken reichen von Datenschutzbedenken bis hin zur potenziellen Verbreitung von Desinformation.