5 hilfreiche Fakten zu KI-Agenten: Was können sie und wo kommen sie zum Einsatz?
Als ChatGPT erstmals auf den Markt kam, sprach jeder in der KI-Branche über die neue Art von Chatbot, mit der endlich scheinbar echte Dialoge möglich wurden. Spätestens seit dem vergangenen Jahr hat sich der Hype aber auf ein neues Ziel ausgerichtet: KI-Agenten. Solche Softwaresysteme standen im Mittelpunkt der jährlichen I/O-Konferenz von Google im Mai, als das Unternehmen seinen neuen KI-Agenten namens Astra vorstellte, mit dem Benutzer über Audio und Video interagieren können. Auch das neue Modell GPT-4o von OpenAI wird offiziell als KI-Agent beworben.
Doch was ist wirklich dran an der Technik? Ist die Branche zu optimistisch? Technologieunternehmen investieren jedenfalls enorme Summen in die Entwicklung von KI-Agenten, und ihre Forschungsbemühungen könnten durchaus nützliche Systeme hervorbringen – auch solche, von denen einige in der Branche seit Jahrzehnten träumen. Viele Experten, darunter OpenAI-Boss Sam Altman, sagen längst, dass sie das nächste große Ding sind. Aber was bedeuten KI-Agenten konkret? Und wie können wir sie sinnvoll nutzen?
Was sind KI-Agenten überhaupt?
Die Forschung im Bereich der KI-Agenten steckt noch in den Kinderschuhen, und es gibt entsprechend auch noch keine endgültige Definition für sie. Aber ganz einfach gesprochen: Es handelt sich um KI-Algorithmen, die in einer dynamischen Welt autonom Entscheidungen treffen können, wie etwa Jim Fan, leitender Forscher bei Nvidia, sagt, der den Bereich bei dem KI-Chipkonzern leitet.
Die große Vision ist dabei eine Software, die ähnlich wie ein menschlicher Assistent eine breite Palette von Aufgaben ausführen kann. In Zukunft könnte ein KI-Agent also bei der Buchung deines Urlaubs behilflich sein und wissen, dass du Luxushotels bevorzugst, sodass er dir nur Hotels vorschlägt, die fünf Sterne haben und alle anderen Wünsche erfüllen, die du ihm vorher genannt hast. Anschließend schlägt er dir Flüge vor, die am besten zu deinem Kalender passen, und plant die Reiseroute nach deinen Vorlieben. Auf der Grundlage dieses Plans und der Wettervorhersage kann der KI-Agent schließlich eine Liste mit Dingen erstellen, die du einpacken solltest. Er könnte sogar deine Reiseroute an Freunde senden, von denen er weiß, dass sie an deinem Reiseziel leben, und sie zu Treffen einladen. Zurück am Arbeitsplatz könnte er schließlich deine Aufgabenliste analysieren und daraus „Action Items“ ableiten, wie etwa das Versenden von Kalendereinladungen, Memos oder E-Mails.
Eine Vision für solche KI-Agenten ist, dass sie multimodal arbeiten; sie können also nicht nur Text, sondern auch Sprache, Musik und Video verarbeiten. In der Astra-Demo von Google konnten Benutzer beispielsweise eine Smartphone-Kamera auf Dinge richten und dem KI-Agenten dazu Fragen stellen. Der Agent konnte auf Text-, Audio- und Videoeingaben reagieren.
KI-Agenten könnten auch die Abläufe in Unternehmen und anderen Einrichtungen reibungsloser gestalten, meint David Barber, Direktor des University College London Centre for Artificial Intelligence. Ein solches System könnte zum Beispiel als ausgefeilter Kundenservice-Bot fungieren. Die derzeitige Generation von KI-Assistenten, die auf Sprachmodellen basieren, kann letztlich nur das nächste wahrscheinliche Wort in einem Satz generieren. Ein KI-Agent wäre jedoch in der Lage, selbstständig auf menschliche Sprachbefehle zu reagieren und Kundendienstaufgaben ohne Aufsicht zu erledigen. Ein solches System wäre beispielsweise in der Lage, E-Mails mit Kundenbeschwerden zu analysieren und dann die Referenznummer des Kunden zu überprüfen und auf CRM-Datenbanken und Liefersysteme zuzugreifen, um festzustellen, ob die Beschwerde legitim ist. Schließlich würde der KI-Agent sie gemäß den Richtlinien des Unternehmens bearbeiten, so Barber.
Welche Arten von KI-Agenten gibt es?
Wenn heutzutage von KI-Agenten die Rede ist, sind in der Regel Agenten gemeint, deren Kern ein großes Sprachmodell oder ein multimodales Modell ist. Man kann sich solche Agenten also grob gesagt wie Chatbots vorstellen, um die herum noch Software gestrickt ist. So wie ein Auto einen Motor braucht, um zu fahren, aber ein Motor allein noch kein Auto ist.
Das KI-Modell übernimmt wesentliche Kernaufgaben des Agenten:
- Es verarbeitet Input aus der Umgebung.
- Es leitet daraus die für seine Aufgabe wichtigsten Informationen ab.
- Es plant die nächsten Schritte.
Gedächtnis (was ist bisher passiert?), Kontext (was hat das alles mit meinen Zielen zu tun?) und Handlung (was tue ich jetzt, um meine Ziele zu erfüllen?) sind externe Software-Bestandteile. Zumindest jetzt noch. Das kann sich in Zukunft ändern. Das Problem ist, dass Planen und logisches Schließen nicht gerade die Kernkompetenzen von Foundation Models sind. Manche Kritiker:innen bezweifeln sogar ganz und gar, dass sie dafür geeignet sind. Sie würden nicht verlässlich funktionieren, und ihr Output sei nicht nachvollziehbar. Trotzdem wächst das Feld extrem dynamisch.
Im Großen und Ganzen gibt es zwei verschiedene Kategorien von KI-Agenten, sagt Nvidia-Experte Fan: „Software Agents“ und „Embodied Agents“. Software-Agenten laufen auf Computern oder Mobiltelefonen und verwenden Apps, ähnlich wie im obigen Beispiel einer Reisebüroaufgabe. „Diese KI-Agenten sind sehr nützlich für die Büroarbeit oder das Versenden von E-Mails oder für die Durchführung einer Abfolge von Dingen“, sagt er.
„Embodied Agents“ sind gewissermaßen körperlich geworden, sie befinden sich in einer 3D-Welt, etwa in einem Videospiel, oder interagieren mit uns in Form eines Roboters. Diese Art von Agenten könnten Videospiele spannender machen, indem sie den Spielern ermöglichen, mit KI-Charakteren zu spielen. Der Ansatz könnte auch dazu beitragen, besser funktionierende Roboter zu bauen, die uns bei alltäglichen Aufgaben im Haushalt helfen könnten, zum Beispiel beim Zusammenlegen der Wäsche oder beim Kochen.
Fan war Teil eines Teams, das einen körperlichen KI-Agenten namens MineDojo für das beliebte Computerspiel Minecraft entwickelt hat. Mithilfe einer riesigen Menge an Daten aus dem Internet konnte er neue Fähigkeiten und Aufgaben erlernen, die es ihm ermöglichten, die virtuelle 3D-Welt frei zu erkunden und komplexe Aufgaben zu erfüllen. MineDojo kann beispielsweise Lamas einfangen oder Lava in einen Eimer schaufeln. Videospiele sind ein guter Trainingsort für die reale Welt, denn sie verlangen von den KI-Agenten, dass sie Spielphysik, logisches Denken und sogar gesunden Menschenverstand verstehen.
In einer neuen Arbeit, deren Peer Review noch aussteht, schreiben Forscher:innen in Princeton, dass KI-Agenten eine von drei verschiedenen Eigenschaften haben müssten. Sie müssen erstens in komplexen Umgebungen schwierige Ziele verfolgen können, ohne weitere Anweisungen zu erhalten. Zweitens müssen sie sich in natürlicher Sprache instruieren lassen und ohne Aufsicht autonom handeln. Und drittens kann der Begriff „KI-Agent“ auch für Systeme verwendet werden, die in der Lage sind, Werkzeuge zu benutzen, wie beispielsweise Suchmaschinen im Web oder Programmiersprachen – und dabei planvoll vorgehen.
Sind KI-Agenten wirklich neu?
Den Begriff „KI-Agent“ gibt es schon seit vielen Jahren und er hatte zu verschiedenen Zeiten unterschiedliche Bedeutungen, meint Chirag Shah, Informatikprofessor an der University of Washington. Nvidia-Experte Fan sieht die aktuelle Welle als mindestens die zweite – sie basiere jetzt auf dem Aufstieg von Sprachmodellen und Chatbots wie ChatGPT.
Die Welle zuvor fand 2016 statt, als die Google-Tochter DeepMind ihre Software AlphaGo vorstellte, ein KI-System, das das enorm komplexe Spiel Go spielen – und vor allem gewinnen – konnte. AlphaGo war in der Lage, interne Entscheidungen zu treffen und Spielstrategien zu planen. Dies beruhte auf dem Verstärkungslernen, einer Technik, die KI-Algorithmen für erwünschte Verhaltensweisen belohnt.
„Aber diese KI-Agenten waren nicht allgemein verwendbar“, sagt Oriol Vinyals, Vizepräsident für Forschung bei Google DeepMind. Sie wurden für sehr spezifische Aufgaben geschaffen – in diesem Fall für das Spielen von Go. Die neue Generation von KI auf der Grundlage von Basismodellen macht Agenten universeller, da sie von der Welt lernen können, mit der Menschen interagieren.
„Nutzer:innen haben dabei viel mehr das Gefühl, dass ein Modell mit der Welt interagiert und ihnen dann bessere Antworten oder zumindest bessere Hilfestellungen geben kann“, sagt Vinyals.
Wo liegen die Grenzen von KI-Agenten?
Es gibt noch viele offene Fragen, die beantwortet werden müssen. Kanjun Qiu, CEO und Gründerin des KI-Startups Imbue, das an KI-Agenten arbeitet, die „logisch“ denken und programmieren können, vergleicht den Stand der Systeme mit dem von selbstfahrenden Autos vor etwas mehr als einem Jahrzehnt. Sie können einiges, aber sie sind unzuverlässig und noch nicht wirklich autonom. Ein Coding-KI-Agent kann zum Beispiel Programme erzeugen, aber er macht manchmal Fehler und weiß nicht, wie er den Code, den er erzeugt, testen soll, sagt Qiu. Der Mensch muss also immer noch aktiv in den Prozess eingebunden werden. KI-Systeme können immer noch nicht vollständig logisch denken, was ein entscheidender Schritt sei, um in einer komplexen und mehrdeutigen menschlichen Welt zu agieren.
„Wir sind noch weit davon entfernt, einen Agenten zu haben, der alle gewünschten Aufgaben für uns automatisieren kann“, sagt Nvidia-Experte Fan. Die derzeitigen Systeme „halluzinieren und halten sich auch nicht immer genau an die Anweisungen. Und das wird schnell lästig.“ Eine weitere Einschränkung ist, dass KI-Agenten nach einer Weile den Überblick darüber verlieren, woran sie gerade arbeiten. KI-Systeme sind durch ihre Kontextfenster begrenzt, das heißt die Menge an Daten, die sie zu einem bestimmten Zeitpunkt berücksichtigen können.
„ChatGPT kann zwar programmieren, ist aber nicht in der Lage, wirklich lange Inhalte zu erstellen. Aber für menschliche Entwickler sehen wir uns ein ganzes GitHub-Repository mit Dutzenden, wenn nicht Hunderten von Codezeilen an, und wir haben keine Probleme, darin zu navigieren“, sagt Fan. Um dieses Problem in den Griff zu bekommen, hat Google die Kapazität seiner Modelle zur Datenverarbeitung erhöht, sodass die Nutzer längere Interaktionen mit ihnen haben können, bei denen sich die Systeme an mehr vergangene Interaktionen erinnern. Der Konzern sagte, dass er außerdem daran arbeitet, seine Kontextfenster in Zukunft „unendlich“ zu machen.
Bei körperlichen KI-Agenten wie Robotern gibt es sogar noch mehr Einschränkungen. Es gibt nicht genügend Trainingsdaten, um ihnen etwas beizubringen, und die Forscher fangen gerade erst an, die Leistungsfähigkeit von Basismodellen in der Robotik zu nutzen. Bei all dem Hype und der Aufregung sollten wir also nicht vergessen, dass die Forschung an KI-Agenten noch in den Kinderschuhen steckt und es wahrscheinlich noch Jahre dauern wird, bis wir ihr volles Potenzial ausschöpfen können.
Wo kann man KI-Agenten ausprobieren?
Gewissermaßen geht das längst. Wahrscheinlich hast du schon die ersten Prototypen ausprobiert, wie ChatGPT und GPT-4 von OpenAI. „Wenn du mit einer Software interagierst, die sich intelligent anfühlt, ist das eine Art Agent“, sagt Qiu.
Gegenwärtig sind die besten Agenten, die wir haben, Systeme mit sehr engen und spezifischen Anwendungsfällen, wie zum Beispiel Programmierassistenten, Kundendienst-Bots oder Software zur Workflow-Automatisierung wie Zapier, sagen Experten. Aber diese sind weit entfernt von einem universellen KI-Agenten, der komplexe Aufgaben erledigen kann.
„Heute haben wir diese Computer und sie sind wirklich leistungsfähig, aber wir müssen ein Micromanagement betreiben“, sagt Qiu. Die ChatGPT-Plug-ins von OpenAI, mit denen Menschen KI-gestützte Assistenten im Browser erstellen können, waren ein Versuch, KI-Agenten für alle zu entwickeln, sagt sie. Aber diese Systeme agieren immer noch unbeholfen, unzuverlässig und sind nicht in der Lage, logisch zu denken.
Trotzdem werden KI-Agenten eines Tages die Art und Weise verändern, wie wir mit der Technologie interagieren, glaubt Qiu, und das sei ein Trend, dem man Beachtung schenken sollte. „Es geht nicht darum, dass wir plötzlich eine allgemeine Künstliche Intelligenz haben. Sondern eher um ein: Oh mein Gott, mein Computer kann viel mehr als noch vor fünf Jahren.“