
Bei der Vorstellung von GPT-4o im Mai 2024 hatte OpenAI erstmals einen Ausblick auf die Live-Video-Funktion für den Advanced Voice Mode von ChatGPT gegeben. Allerdings war OpenAI wohl etwas vorschnell mit der Ankündigung, denn es sollten noch Monate vergehen, bis die neue Fähigkeit an den Start ging.
Live-Video im Advanced Voice Mode freigeschaltet
Jetzt ist es soweit: Am 12. Dezember 2024 hat der ChatGPT-Anbieter die Verfügbarkeit von Live-Video und Screensharing für den Advanced Voice Mode bekanntgegeben. Damit können Nutzer:innen eine Art Videocall mit dem KI-Chatbot starten.
Anhand der übertragenen (Bewegt-)Bilder kann ChatGPT die Umgebung interpretieren und etwa Fragen dazu beantworten oder Handlungsanweisungen geben. In einer vor wenigen Tagen via CNN vorgeführten Demonstration der Live-Video-Fähigkeiten wurden allerdings auch die Grenzen der neuen Funktion sichtbar, wie Techcrunch schreibt.
Demnach hatte ChatGPT mit dem CNN-Moderator Anderson Cooper einen Quiz zur menschlichen Anatomie durchgeführt. Als Cooper Teile des menschlichen Körpers auf eine Tafel malte, erkannte ChatGPT diese – und gab eine Einschätzung zur Qualität der Zeichenergebnisse.
KI-Halluzination auch bei Live-Video-Funktion
Allerdings musste sich der Advanced Voice Mode des KI-Chatbots anschließend bei einer Geometrieaufgabe geschlagen geben und antwortete fehlerhaft. Für Beobachter:innen ein Zeichen, dass die Probleme mit der KI-Halluzination weiter anhalten.
Wie Live-Video und Screensharing auf Dauer funktionieren, werden ausgiebige Tests zeigen müssen. Die neuen Funktionen für Advanced Voice Mode sind für die ersten Nutzer:innen ab sofort verfügbar und werden in den kommenden Tagen ausgerollt.
Wann kommt das Feature nach Europa?
Zunächst werden aber nur ChatGPT-Pro- und Plus-Nutzer:innen Zugriff darauf haben – und auch nur jene außerhalb von Europa. Enterprise- und Education-Abonnent:innen sollen Live-Video frühesten im Januar 2025 ausprobieren können.
Für Nutzer:innen in der EU, der Schweiz, Island, Norwegen und Liechtenstein gibt es dagegen noch keinen Zeitplan. Hier könnten also noch Wochen oder Monate vergehen. Ähnliches gilt für die Video-KI Sora, die OpenAI am 9. Dezember 2024 gestartet hatte.
Google Gemini: Videos in Echtzeit analysieren
Die Veröffentlichung von Live-Video für den Advanced Voice Mode von ChatGPT kommt übrigens einen Tag, nachdem Google Gemini 2.0 Flash vorgestellt hatte, das ebenfalls Videos in Echtzeit analysieren kann. Als Project Astra wird die Funktion derzeit von ausgewählten Tester:innen auf Android ausprobiert.