Operator von OpenAI: Welche Aufgaben der KI-Agent übernehmen soll – und wer darauf zugreifen kann

OpenAI hat seinen ersten KI-Agenten vorgestellt, der euch zahlreiche Aufgaben abnehmen kann. (Foto: JarTee / Shutterstock)
Das KI-Unternehmen OpenAI hat in einer großen Ankündigung seinen ersten KI-Agenten präsentiert. Operator ist in der Lage, das Netz eigenständig zu durchforsten, um etwa einen Tisch in einem Restaurant für euch zu reservieren, euren Einkauf zusammenzustellen oder euch Memes zu erstellen. In einem Video präsentierten Sam Altman und seine Kollegen, welche Skills OpenAIs Operator schon jetzt besitzt.
OpenAI Operator: KI übernimmt viele Aufgaben – aber nicht alle
Im Video zeigen die Mitarbeiter von OpenAI zunächst die Oberfläche von Operator. Diese ist stark an ChatGPT angelehnt und dürfte Nutzer:innen vertraut vorkommen. Neu ist, dass sich unter dem Feld für die Prompt-Eingabe zahlreiche verknüpfte Dienste finden – darunter Uber, OpenTable oder Ebay. Diese können angeklickt werden, um OpenAIs Operator direkt mitzuteilen, die Aufgabe aus dem Prompt über diesen Dienst abzuschließen.
Im Beispiel demonstriert OpenAI zunächst, wie Operator einen Tisch für ein Restaurant bucht. Dazu müssen User:innen nur den Dienst Opentable auswählen und Operator sagen, in welchem Restaurant und für welche Uhrzeit sie gern einen Tisch hätten. Die KI öffnet anschließend einen Browser in der Cloud und darin die Website von Opentable, um dort nach dem Restaurant und der entsprechenden Uhrzeit zu suchen.
Dabei korrigiert sich Operator auch selbstständig. Im Beispiel öffnete die KI zunächst die richtige Restaurantkette, allerdings am falschen Standort. Da die Mitarbeiter von OpenAI in Operator hinterlegt hatten, dass sie sich am Standort San Francisco befinden, änderte der KI-Agent selbstständig das Restaurant. Da die gewünschte Zeit nicht zur Verfügung stand, meldete sich Operator zurück und schlug eine Alternative vor.
In einem weiteren Beispiel luden die OpenAI-Mitarbeiter ein Foto einer Einkaufsliste hoch und ließen den KI-Agenten die Lebensmittel eigenständig einkaufen. User:innen können jeden Schritt im Interface verfolgen und im Zweifel eingreifen oder die KI einfach machen lassen, um sich in der Zeit anderen Aufgaben zu widmen. Wenn OpenAI im Verlauf der Aufgabe auf einen Login, Captchas oder beim Shopping auf Bezahlmethoden stößt, müssen User:innen selbst eingreifen. Die KI wird also nicht selbstständig mit euren Daten bezahlen.
Wer kann OpenAI Operator nutzen?
Operator kann sich dabei durch Screenshots von der Website orientieren und mit virtueller Maus und Tastatur über die Seiten navigieren. OpenAI setzt dafür ein neues KI-Modell ein, das den Namen Computer-Using Agent (CUA) trägt. Das Modell soll sich unter anderem bei GPT-4o bedienen, um optische Elemente zu verarbeiten. Ferner wurde CUA aber noch mit User-Interfaces trainiert und kann dadurch Menüs, Textfelder und Knöpfe erkennen. Laut OpenAI soll CUA trotz seiner frühen Entwicklungsphase hervorragende Ergebnisse in den Benchmarks WebArena und WebVoyager erzielt haben.
OpenAI betont in der Ankündigung, dass es sich bei Operator aktuell noch um eine Preview handelt. Dementsprechend können noch Probleme auftreten. Deshalb hat sich das KI-Unternehmen dazu entschieden, Operator zunächst nur einer recht kleinen Gruppe von Nutzer:innen zur Verfügung zu stellen. Genauer gesagt können aktuell nur Pro-User:innen in den USA den KI-Agenten ausprobieren. Das Pro-Abo kostet 200 US-Dollar pro Monat. Künftig will OpenAI auch Plus-, Team- und Enterprise-User:innen mit Operator ausstatten und einige Funktionen des KI-Agenten in ChatGPT integrieren.