Mehr als nur Chatbots: KI lernt zu hören, zu sehen und kreativ zu werden wie nie zuvor
Chatten mit einem KI-Chatbot ist so 2022: Die neuesten KI-Spielzeuge aus Forschung und von Start-ups nutzen multimodale Modelle, um viel mehr zu erledigen – und vor allem gleichzeitig. Bilder, Videos, Audio und Text können in einem Rutsch verarbeitet werden. Hier einige aktuelle Beispiele, was möglich ist.
Audio Overview mit NotebookLM
Unser erstes Anschauungsobjekt dafür ist Googles NotebookLM. Es ist eigentlich als Recherche- und Forschungswerkzeug gedacht, mit dem Buchautoren oder Wissenschaftler ihr Material zusammentragen, verarbeiten und daraus mittels KI neue Erkenntnisse ziehen können. Es wurde vor einem Jahr ohne viel Aufsehen auf den Markt gebracht.
Vor ein paar Wochen fügte Google NotebookLM dann ein KI-Podcasting-Tool namens Audio Overview hinzu, mit dem Nutzer kurze Audiosendungen zu beliebigen Themen erstellen können, durch die zwei Moderatoren führen. Fügen Sie z. B. einen Link zu Ihrem LinkedIn-Profil ein – und die KI-Podcast-Moderatoren werden Ihr Ego neun Minuten lang streicheln.
Die Funktion hat sich zu einem überraschenden viralen Hit im Netz entwickelt. Die Arten des Inputs sind vielfältig: PDFs, YouTube-Videos, selbst aus Kreditkartenabrechnungen und Kochrezepten macht Audio Overview etwas Unterhaltsames – und wirkt dabei erstaunlich real.
Video auf Knopfdruck
Multimodale generative Inhalte sind in kürzester Zeit ebenfalls deutlich besser geworden. Im September 2022 wurde über Metas erstes Text-zu-Video-Modell, Make-A-Video, berichtet. Im Vergleich zur heutigen Technologie sehen diese Videos pixelig, unansehnlich und albern aus.
Meta ruht sich nicht darauf aus und hat gerade seinen Konkurrenten zu OpenAIs berühmtem Sora angekündigt. Er heißt Movie Gen. Mit diesem Tool können Benutzer mithilfe von Textprompts eigene Videos und Sounds erstellen, vorhandene Videos bearbeiten und Bilder in Videos verwandeln.
Canvas von OpenAI statt direktem Chat
Die Art und Weise, wie wir mit KI-Systemen interagieren, verändert sich ebenfalls und ist weniger auf Text angewiesen. Die neue Canvas-Schnittstelle von OpenAI ermöglicht es Benutzern, mit ChatGPT an Projekten zusammenzuarbeiten.
Anstatt sich auf ein herkömmliches Chat-Fenster zu verlassen, in dem die Benutzer oft mehrere Runden mit Eingabeaufforderungen und neu generiertem Text drehen müssen, um das gewünschte Ergebnis zu erzielen, können sie in Canvas Text- oder Codestücke zur Bearbeitung auswählen.
Googles Suche wird schlau(er)
Auch die Suche erhält ein multimodales Upgrade. Neben dem erstmaligen Einfügen von Reklame in KI-Suchübersichten im US-Markt hat Google eine neue Funktion eingeführt, mit der Nutzer auch ein Video hochladen und dann mit ihrer Stimme nach Inhalten suchen können.
Bei einer Demo auf der Google I/O zeigte das Unternehmen, wie man die Google-Lens-App öffnen, ein Video von Fischen in einem Aquarium aufnehmen und dann eine Frage dazu stellen kann. Googles Gemini-Modell durchsucht dann das Internet und liefert Ihnen eine Antwort in Form einer KI-Zusammenfassung von Google. Wann es kommt: Noch unklar.
Fazit: Es wächst zusammen, was zusammengehört
Was all diese Funktionen vereint, ist eine interaktivere, anpassbare Schnittstelle zu KI-Systemen und die Möglichkeit, sie auf viele verschiedene Arten von Quellmaterial anzuwenden. Die Podcast-Funktion von Googles NotebookLM war das erste KI-Produkt seit langem, das auch Experten erstaunt und erfreut hat, auch weil die KI-Stimmen so unerwartet realistisch klingen. Die Tatsache, dass die Audio Overviews ein Hit wurden, obwohl sie nur eine Nebenfunktion innerhalb eines größeren Produkts sind, zeigt, dass KI-Entwickler oft nicht wirklich wissen, was sie da tun. Kaum zu glauben, aber auch ChatGPT selbst soll ein unerwarteter Erfolg für OpenAI gewesen sein.
Wir befinden uns seit ein paar Jahren in einem milliardenschweren Boom der generativen KI. Die enormen Investitionen in Rechenleistung und Entwicklung haben zu einer raschen Verbesserung der Qualität der dadurch erstellbaren Inhalte beigetragen. Die neuen multimodalen Anwendungen sind das Ergebnis des immensen Drucks von außen, unter dem die KI-Unternehmen stehen, Geld zu verdienen und abzuliefern. Oder um es salopp zu sagen: Technologiekonzerne werfen den Menschen verschiedene KI-Tools an (beziehungsweise in) den Kopf und schauen, ob irgendwas hängenbleibt.