OpenAI: ChatGPT kann jetzt mit euch sprechen – und euch sehen
GPT-5 werde es nicht sein und auch keine Suchmaschine. So teaserte OpenAI-Chef Sam Altman das heutige Live-Event seines KI-Unternehmens an. Das hätte durchaus ernüchtert, wenn er nicht angefügt hätte, dass es sich dennoch um Neuigkeiten handeln würde, „die die Menschen lieben werden“. Für ihn fühle es sich immerhin „wie Magie“ an.
OpenAI-Mitgründer Greg Brockman stieß auf X ins gleiche Horn und meinte, es werde zwar weder um GPT-5, noch um eine Suchmaschine gehen, aber er glaube dennoch, „dass ihr es mögen werdet“.
ChatGPT 4o ist doppelt so schnell wie ChatGPT 4
Was OpenAi nun tatsächlich vorstellte, war eine erfrischend menschlich wirkende Schnittstelle zu einer schneller arbeitenden KI, die im Kern allerdings keine neuen Features, wie etwa Training auf neueren Daten oder Ähnliches aufzuweisen hatte.
Vielmehr konnte das neue Chat-GPT 4o (o für omni), das schneller und besser in Sachen Bildgenerierung, Textverarbeitung und Spracherkennung sein sollte, primär mit einer renovierten UI glänzen und damit, dass es sich als Desktop-App gut in den Arbeitsablauf seiner Nutzer:innen integrieren lässt.
OpenAIs Chef-Technologin Mira Murati versprach nicht nur eine verzögerungsfreie, natürliche Nutzung ohne Brüche und Wartezeiten. Sie präsentierte sie mit Hilfe zweier Entwickler auch.
Beeindruckende Live-Demo zeigt neues Mensch-Maschine-Interface
Im Rahmen der Vorstellung führte OpenAI-Entwickler Mark Chen etwa eine Echtzeitkonversation, die tatsächlich den Charakter eines Gesprächs unter Freunden zeigte. Dabei reagierte die KI unmittelbar auf die Spracheingaben Chens.
Es gab keine Verzögerung, Chen musste nicht auf die KI warten. Zudem konnte die KI die emotionale Stimmlage Chens erkennen und darauf reagieren. Dabei war die KI jederzeit unterbrechbar, und zwar durch beliebige Sprechende. Das funktionierte ganz so wie in einem Gespräch unter Menschen.
Ebenso ist es nun möglich, der KI Bilder zu zeigen, auf die sie reagieren kann. Das demonstrierten die OpenAI-Expert:innen anhand einer handschriftlichen mathematischen Gleichung. Jedoch sollte die KI die Lösung nicht einfach präsentieren, sondern den Menschen helfen, die Lösung selbst zu finden.
Desktop-App kann Bildschirminhalte „sehen“
Mit der App auf dem Desktop kann ChatGPT mit anderen Apps unter anderem per Copy-and-paste interagieren. Das erleichtert etwa die Analyse von Problemen mit Programm-Code. In der Demo zeigten die OpenAI-Expert:innen, dass die KI den Code nicht nur analysieren, sondern auch verbessern kann.
Ebenso ist es möglich, der App Sichtzugriff auf den Bildschirminhalt zu geben. ChatGPT ist dann in der Lage, das „Gesehene“ zu analysieren und zu kommentieren.
Um nicht den Eindruck zu vermitteln, dass die Demo vorbereitet war, hatte OpenAI Nutzende auf X gebeten, eigene Vorschläge für Live-Experimente mit dem neuen Modell zu machen. Darunter befanden sich etwa Echtzeit-Übersetzungen aus dem Italienischen oder der Versuch, ChatGPT den Gesichtsausdruck Anwesender auf ihren emotionalen Zustand interpretieren zu lassen.
ChatGPT 4o – mehr als nur eine verbesserte UI
Das neue Flaggschiff heißt also ChatGPT 4o und nicht 5. Die Änderungen hätten den Versionssprung wohl recht eindeutig gerechtfertigt. 4o war übrigens unmittelbar nach der Vorstellung bereits für Tests im Web wählbar.
ChatGPT unterstützt nun 50 Sprachen und erreicht damit 97 Prozent der Weltbevölkerung. Oberstes Ziel der Entwicklung sei die Verbreiterung der Nutzendenbasis, verriet Murati. Die Zahl der kostenlosen Nutzer:innen sei immerhin fünfmal so hoch wie die Basis der zahlenden Nutzer:innen. Um dieses Potenzial zu nutzen, werde jetzt auch der ChatGPT-Store geöffnet. Das dürfte der Entwicklung einen weiteren Schub versetzen.
Wenn ihr die ganze Präsentation sehen wollt, schaut euch dieses Video an: