Als ChatGPT erstmals auf den Markt kam, sprach jeder in der KI-Branche über die neue Art von Chatbot, mit der endlich scheinbar echte Dialoge möglich wurden. Spätestens seit dem vergangenen Jahr hat sich der Hype aber auf ein neues Ziel ausgerichtet: KI-Agenten. Solche Softwaresysteme standen im Mittelpunkt der jährlichen I/O-Konferenz von Google im Mai, als das Unternehmen seinen neuen KI-Agenten namens Astra vorstellte, mit dem Benutzer über Audio und Video interagieren können. Auch das neue Modell GPT-4o von OpenAI wird offiziell als KI-Agent beworben.

Doch was ist wirklich dran an der Technik? Ist die Branche zu optimistisch? Technologieunternehmen investieren jedenfalls enorme Summen in die Entwicklung von KI-Agenten, und ihre Forschungsbemühungen könnten durchaus nützliche Systeme hervorbringen – auch solche, von denen einige in der Branche seit Jahrzehnten träumen. Viele Experten, darunter OpenAI-Boss Sam Altman, sagen längst, dass sie das nächste große Ding sind. Aber was bedeuten KI-Agenten konkret? Und wie können wir sie sinnvoll nutzen?

Was sind KI-Agenten überhaupt?



Die Forschung im Bereich der KI-Agenten steckt noch in den Kinderschuhen, und es gibt entsprechend auch noch keine endgültige Definition für sie. Aber ganz einfach gesprochen: Es handelt sich um KI-Algorithmen, die in einer dynamischen Welt autonom Entscheidungen treffen können, wie etwa Jim Fan, leitender Forscher bei Nvidia, sagt, der den Bereich bei dem KI-Chipkonzern leitet.

Die große Vision ist dabei eine Software, die ähnlich wie ein menschlicher Assistent eine breite Palette von Aufgaben ausführen kann. In Zukunft könnte ein KI-Agent also bei der Buchung deines Urlaubs behilflich sein und wissen, dass du Luxushotels bevorzugst, sodass er dir nur Hotels vorschlägt, die fünf Sterne haben und alle anderen Wünsche erfüllen, die du ihm vorher genannt hast. Anschließend schlägt er dir Flüge vor, die am besten zu deinem Kalender passen, und plant die Reiseroute nach deinen Vorlieben. Auf der Grundlage dieses Plans und der Wettervorhersage kann der KI-Agent schließlich eine Liste mit Dingen erstellen, die du einpacken solltest. Er könnte sogar deine Reiseroute an Freunde senden, von denen er weiß, dass sie an deinem Reiseziel leben, und sie zu Treffen einladen. Zurück am Arbeitsplatz könnte er schließlich deine Aufgabenliste analysieren und daraus „Action Items“ ableiten, wie etwa das Versenden von Kalendereinladungen, Memos oder E-Mails.

Eine Vision für solche KI-Agenten ist, dass sie multimodal arbeiten; sie können also nicht nur Text, sondern auch Sprache, Musik und Video verarbeiten. In der Astra-Demo von Google konnten Benutzer beispielsweise eine Smartphone-Kamera auf Dinge richten und dem KI-Agenten dazu Fragen stellen. Der Agent konnte auf Text-, Audio- und Videoeingaben reagieren.

KI-Agenten könnten auch die Abläufe in Unternehmen und anderen Einrichtungen reibungsloser gestalten, meint David Barber, Direktor des University College London Centre for Artificial Intelligence. Ein solches System könnte zum Beispiel als ausgefeilter Kundenservice-Bot fungieren. Die derzeitige Generation von KI-Assistenten, die auf Sprachmodellen basieren, kann letztlich nur das nächste wahrscheinliche Wort in einem Satz generieren. Ein KI-Agent wäre jedoch in der Lage, selbstständig auf menschliche Sprachbefehle zu reagieren und Kundendienstaufgaben ohne Aufsicht zu erledigen. Ein solches System wäre beispielsweise in der Lage, E-Mails mit Kundenbeschwerden zu analysieren und dann die Referenznummer des Kunden zu überprüfen und auf CRM-Datenbanken und Liefersysteme zuzugreifen, um festzustellen, ob die Beschwerde legitim ist. Schließlich würde der KI-Agent sie gemäß den Richtlinien des Unternehmens bearbeiten, so Barber.