Gemini Live: Wir haben die nächste Generation von KI-Chatbots für Android-Smartphones ausprobiert

Im Zuge des Galaxy-S25-Events hatte Google die neuen Gemini-Funktionen angekündigt, und während der Marktstart der neuen Galaxy-Modelle noch auf sie warten lässt, können Besitzer:innen eines Galaxy S24, Pixel 9 und offenbar weiteren Modellen bereits darauf zugreifen.
Dank der neuen Funktion könnt ihr euch jetzt mit Gemini Live über Bilder, Dateien und YouTube-Videos in natürlicher Sprache unterhalten. Bislang waren die Gespräche mit dem Google-Chatbot auf allgemeines Wissen beschränkt.
Gemini Live als Gesprächspartner für Videos, PDFs und Bilder
Wir haben die Funktion auf einem Galaxy S25 Ultra und Pixel 9 ausprobiert: Um den Gesprächsmodus zu verwenden, startet ihr das Gemini-Overlay – nicht die App – entweder mit einem Druck auf den Powerbutton oder einer Wischgeste von einer unteren seitlichen Ecke des Bildschirms, während der zu besprechende Inhalt angezeigt wird.
Im Gemini-Overlay wird euch nun bei einem Youtube-Video angeboten, über das Video zu sprechen oder Fragen zum Video zu stellen. Korrespondierende Angebote bekommt ihr bei PDF-Dateien und Bildern. Bei Bildern müsst ihr zusätzlich auf das Plus-Symbol drücken, um die entsprechende Datei auszuwählen. Jetzt erscheint – zumindest auf ersten Geräten – auf dem Bildschirm ein Button „Mit Gemini Live darüber sprechen“.

Mit Gemini Live könnt ihr ab sofort über diverse Inhalte sprechen. (Screenshots: t3n)
Die Funktion ist je nach Inhalt überaus praktisch, denn sie fasst für euch Youtube-Videos zusammen und ihr könnt nähere Fragen dazu stellen. Im aktuellen Clip von MKBHD zu ersten Eindrücken von Samsungs „Project Moohan“, dem XR-Headset mit Android XR, erklärt Gemini, was dem Youtuber an dem Produkt gefällt und woran noch gearbeitet werden müsste. Ihr könnt auch spezifische Fragen zur Hard- oder Software stellen, aber nur soweit der Youtuber darüber spricht.
PDF-Dateien kann die KI auch für euch zusammenfassen, Fragen klären und sogar Quizze erstellen, um euer Wissen zu prüfen. Bei PDF-Dateien solltet ihr aufpassen, dass sie nicht zu groß sind, denn bei umfangreichen Texten kann es minutenlang dauern, bis Gemini es aufbereitet hat.
Die Option, über Artikel auf Webseiten ein Gespräch mit Gemini Live zu führen, wird uns noch nicht angeboten, indes besteht nur die Möglichkeit, Fragen zum Bildschirminhalt zu stellen. Daraufhin fasst Gemini etwa den Artikelinhalt grob zusammen. Wie bei allen KI-Modellen kann es auch bei Gemini Live zu Halluzinationen kommen. Im Testlauf antwortete die KI auf die Frage, welche der Abbildungen der Elefanten korrekter sei, mit der Abbildung 1. Das ist natürlich kompletter Humbug.
Gemini Live: Automatische Übermittlung von Display-Aktionen ausschalten
Damit ihr mehr Kontrolle über eure Daten behaltet, könnt ihr per Langdruck auf eine beliebige Gemini-Eingabeaufforderung festlegen, ob die automatische Übermittlung ein- oder ausgeschaltet ist. Wenn diese Einstellung deaktiviert ist, wird die Schaltfläche „Live sprechen“ erst angezeigt, wenn ihr den Inhalt manuell übermittelt.

Gemini Live: Automatische Display-Aktionen lassen sich im Overlay an- und abschalten. (Screenshots: t3n)
Ist die Funktion aktiviert, werden alle Bildschirmaktionen automatisch an Gemini übermittelt, wenn ihr darauf tippt. Um die automatische Übermittlung wieder zu aktivieren, haltet den „Fragen nach…“-Chip gedrückt und tippt dann auf „Automatische Übermittlung einschalten“.
Neue Funktionen bereiten Gemini auf Project Astra vor
Die neuen Gemini-Funktionen sind weitere Bausteine der KI hin zu Project Astra, das Google zuerst im Zuge der I/O 2024 präsentiert und im Dezember 2024 als Teil von Gemini 2.0 angekündigt hatte.
In den nächsten Monaten sollen weitere Komponenten von Project Astra, wie die Bildschirmfreigabe und das Live-Streaming von Videos in der Gemini-App nutzbar sein.
Langfristig sollen die Funktionen auch Teil von XRXR-Headsetsnd AR-Brillen werden. Entsprechende Pläne hatten sowohl Google als auch Samsung angekündigt. Auch weitere Hardwarepartner wie Sony, Lynx und Xreal sind dabei, so Google.