Anzeige
Anzeige
MIT Technology Review Analyse

Mehr als nur Chatbots: KI lernt zu hören, zu sehen und kreativ zu werden wie nie zuvor

Neue Sprach- und Videofunktionen signalisieren eine Entwicklung über textbasierte Chatbots hinaus. Doch wie gut ist die Technik wirklich? Ein Überblick aktueller Systeme.

Von MIT Technology Review Online
3 Min.
Artikel merken
Anzeige
Anzeige
(Bild: Shutterstock/thisdesign)

Chatten mit einem KI-Chatbot ist so 2022: Die neuesten KI-Spielzeuge aus Forschung und von Start-ups nutzen multimodale Modelle, um viel mehr zu erledigen – und vor allem gleichzeitig. Bilder, Videos, Audio und Text können in einem Rutsch verarbeitet werden. Hier einige aktuelle Beispiele, was möglich ist.

Anzeige
Anzeige

Audio Overview mit NotebookLM

Unser erstes Anschauungsobjekt dafür ist Googles NotebookLM. Es ist eigentlich als Recherche- und Forschungswerkzeug gedacht, mit dem Buchautoren oder Wissenschaftler ihr Material zusammentragen, verarbeiten und daraus mittels KI neue Erkenntnisse ziehen können. Es wurde vor einem Jahr ohne viel Aufsehen auf den Markt gebracht.

Vor ein paar Wochen fügte Google NotebookLM dann ein KI-Podcasting-Tool namens Audio Overview hinzu, mit dem Nutzer kurze Audiosendungen zu beliebigen Themen erstellen können, durch die zwei Moderatoren führen. Fügen Sie z. B. einen Link zu Ihrem LinkedIn-Profil ein – und die KI-Podcast-Moderatoren werden Ihr Ego neun Minuten lang streicheln.

Anzeige
Anzeige

Die Funktion hat sich zu einem überraschenden viralen Hit im Netz entwickelt. Die Arten des Inputs sind vielfältig: PDFs, YouTube-Videos, selbst aus Kreditkartenabrechnungen und Kochrezepten macht Audio Overview etwas Unterhaltsames – und wirkt dabei erstaunlich real.

Video auf Knopfdruck

Multimodale generative Inhalte sind in kürzester Zeit ebenfalls deutlich besser geworden. Im September 2022 wurde über Metas erstes Text-zu-Video-Modell, Make-A-Video, berichtet. Im Vergleich zur heutigen Technologie sehen diese Videos pixelig, unansehnlich und albern aus.

Anzeige
Anzeige

Meta ruht sich nicht darauf aus und hat gerade seinen Konkurrenten zu OpenAIs berühmtem Sora angekündigt. Er heißt Movie Gen. Mit diesem Tool können Benutzer mithilfe von Textprompts eigene Videos und Sounds erstellen, vorhandene Videos bearbeiten und Bilder in Videos verwandeln.

Canvas von OpenAI statt direktem Chat

Die Art und Weise, wie wir mit KI-Systemen interagieren, verändert sich ebenfalls und ist weniger auf Text angewiesen. Die neue Canvas-Schnittstelle von OpenAI ermöglicht es Benutzern, mit ChatGPT an Projekten zusammenzuarbeiten.

Anzeige
Anzeige

Anstatt sich auf ein herkömmliches Chat-Fenster zu verlassen, in dem die Benutzer oft mehrere Runden mit Eingabeaufforderungen und neu generiertem Text drehen müssen, um das gewünschte Ergebnis zu erzielen, können sie in Canvas Text- oder Codestücke zur Bearbeitung auswählen.

Googles Suche wird schlau(er)

Auch die Suche erhält ein multimodales Upgrade. Neben dem erstmaligen Einfügen von Reklame in KI-Suchübersichten im US-Markt hat Google eine neue Funktion eingeführt, mit der Nutzer auch ein Video hochladen und dann mit ihrer Stimme nach Inhalten suchen können.

Bei einer Demo auf der Google I/O zeigte das Unternehmen, wie man die Google-Lens-App öffnen, ein Video von Fischen in einem Aquarium aufnehmen und dann eine Frage dazu stellen kann. Googles Gemini-Modell durchsucht dann das Internet und liefert Ihnen eine Antwort in Form einer KI-Zusammenfassung von Google. Wann es kommt: Noch unklar.

Anzeige
Anzeige

Fazit: Es wächst zusammen, was zusammengehört

Was all diese Funktionen vereint, ist eine interaktivere, anpassbare Schnittstelle zu KI-Systemen und die Möglichkeit, sie auf viele verschiedene Arten von Quellmaterial anzuwenden. Die Podcast-Funktion von Googles NotebookLM war das erste KI-Produkt seit langem, das auch Experten erstaunt und erfreut hat, auch weil die KI-Stimmen so unerwartet realistisch klingen. Die Tatsache, dass die Audio Overviews ein Hit wurden, obwohl sie nur eine Nebenfunktion innerhalb eines größeren Produkts sind, zeigt, dass KI-Entwickler oft nicht wirklich wissen, was sie da tun. Kaum zu glauben, aber auch ChatGPT selbst soll ein unerwarteter Erfolg für OpenAI gewesen sein.

Wir befinden uns seit ein paar Jahren in einem milliardenschweren Boom der generativen KI. Die enormen Investitionen in Rechenleistung und Entwicklung haben zu einer raschen Verbesserung der Qualität der dadurch erstellbaren Inhalte beigetragen. Die neuen multimodalen Anwendungen sind das Ergebnis des immensen Drucks von außen, unter dem die KI-Unternehmen stehen, Geld zu verdienen und abzuliefern. Oder um es salopp zu sagen: Technologiekonzerne werfen den Menschen verschiedene KI-Tools an (beziehungsweise in) den Kopf und schauen, ob irgendwas hängenbleibt.

Dieser Artikel stammt von Melissa Heikkilä. Sie ist Redakteurin bei der US-amerikanischen Ausgabe von MIT Technology Review. Sie berichtet über Entwicklungen auf dem Gebiet der Künstlichen Intelligenz.
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige