Hugging-Face-Experten warnen: Wir sollten KI-Agenten nicht die volle Kontrolle geben

Es ist klar, dass KI-Agenten bei unserer täglichen Arbeit außerordentlich hilfreich sein können. Das bringt jedoch ebenso klare Probleme mit sich.(Bild: Midjourney / t3n)
Seit letztem Jahr kennt die Techbranche nur noch einen KI-Hype: Agenten. Im Gegensatz zu reinen Chatbots arbeiten diese vermeintlich bahnbrechenden Systeme außerhalb eines simplen Chat-Fensters und navigieren durch Anwendungen, um komplexe Aufgaben wie Terminvereinbarungen oder Online-Einkäufe auf simple Benutzerbefehle hin auszuführen. Mit der Entwicklung von KI-Agenten, die offensichtlich immer leistungsfähiger werden, stellt sich allerdings eine entscheidende Frage: Wie viel Kontrolle sind wir bereit, an sie abzugeben – und zu welchem Preis?
Fast wöchentlich werden neue Frameworks und Funktionen für KI-Agenten angekündigt. Unternehmen werben dafür, wie die Technologie unser Leben erleichtern kann, indem sie uns Aufgaben abnimmt, die uns zu lange dauern oder zu anstrengend sind. Prominente Beispiele sind der „Computer Use“ von Anthropic, eine Funktion, die es dem Chatbot Claude ermöglicht, direkt mit einem virtuellen Computersystem zu interagieren, als wäre es der Nutzer. (OpenAI bietet eine ganz ähnliche Funktion.) Das Startup Butterfly Effect aus China bezeichnet seine KI Manus wiederum als generellen KI-Agenten, der Online-Werkzeuge für eine Vielzahl von Aufgaben nutzen kann, etwa das Auffinden neuer Zielgruppen oder die Planung von Reisen.
Das Versprechen von KI-Agenten ist verlockend
All diese Entwicklungen bei KI-Agenten stellen einen großen Fortschritt im Bereich der Künstlichen Intelligenz dar: Systeme, die in der digitalen Welt ohne direkte menschliche Aufsicht arbeiten sollen. Das Versprechen dahinter ist verlockend. Wer wünscht sich nicht Unterstützung bei mühsamen Arbeiten oder Aufgaben, für die er am Rechner keine Zeit oder Lust hat? Ein Agent erinnert uns dann daran, den Kollegen zu fragen, wie gut seine Kinder beim Basketballturnier abgeschnitten haben oder findet für uns passende Bilder für eine Präsentation. Kennt der Agent dich erst gut genug, erledigt er das Bei-Laune-Halten deiner Arbeitsfreund:innen dann ganz alleine oder schreibt auch den Text zu der großen Präsentation. Menschen mit Behinderungen können KI-Aufgaben per Sprachbefehl anstoßen, die sie sonst nie erledigen könnten. Agenten lenken den Verkehr oder helfen uns in Notsituationen. Wie gesagt: Das hat alles ein großes Potenzial, unser Leben zu verbessern.
Die aktuelle Vision der KI-Agenten birgt jedoch erhebliche Risiken, die bei der Eile, die in der Branche herrscht, gerne übersehen werden. Besonders, wenn den Systemen derart viel Autonomie zugestanden wird. Wir bei Hugging Face haben in unserer Forschung diese Systeme schon vor Jahren erstmals implementiert und dann ihr Verhalten untersucht. Und unsere jüngsten Erkenntnisse deuten darauf hin, dass es bei KI-Agenten zu größeren Fehlentwicklungen kommen könnte.
KI-Agenten können eine Vielzahl an Aufgaben erledigen
Das Kernproblem steht im Mittelpunkt dessen, was KI-Agenten auszeichnet: Je autonomer ein System ist, desto mehr geben wir die menschliche Kontrolle ab. Agentische Prozesse werden so entwickelt, dass sie flexibel sind und eine Vielzahl von Aufgaben erledigen können, die nicht mehr direkt programmiert werden müssen, wie man das früher getan hätte.
Bei den aktuellen Systemen wird diese Flexibilität dadurch ermöglicht, dass sie auf großen Sprachmodellen aufbauen, deren Output unvorhersehbar und anfällig für erhebliche Fehler ist. Wenn ein Large Language Model nur Text in einer Chat-Schnittstelle generiert, bleiben alle seine Fehler auf diese Unterhaltung beschränkt. Wenn ein System jedoch unabhängig agieren kann und Zugriff auf mehr und mehr Anwendungen hat, kann es Aktionen durchführen, die wir nicht beabsichtigt haben. Solche Systeme können Daten manipulieren, sich als Nutzer ausgeben und unautorisierte Transaktionen durchführen. Das Schlimme daran: Die Autonomie der Systeme, die so sehr beworben wird, ist auch ihre Hauptschwachstelle.
Stück für Stück die Kontrolle aufgeben
Um das gesamte Risiko-Nutzen-Verhältnis zu verstehen, ist es sinnvoll, KI-Agenten auf einem Spektrum ihrer Autonomie zu charakterisieren. Die niedrigste Stufe besteht aus einfachen Sprachverarbeitern, die keinen Einfluss auf den eigentlichen Programmablauf haben, wie etwa Chatbots, die dich auf einer Unternehmenswebsite begrüßen. Die höchste Stufe, vollständig autonome Agenten, können neuen Code ohne menschliche Einschränkungen oder Aufsicht generieren und gleich ausführen. Sie können all das, was Menschen können, Dateien verschieben und verändern, per E-Mail kommunizieren und vieles mehr, ohne dass sie um Erlaubnis bitten. Dazwischen stehen die sogenannten Router, die entscheiden, welche vom Menschen bereitgestellten Schritte zu unternehmen sind, Tool-Caller, die vom Menschen geschriebene Funktionen unter Verwendung der vom Agenten vorgeschlagenen Werkzeuge ausführen; und sogenannte Multistep-Agenten, die bestimmen, welche Funktionen wann und wie ausgeführt werden sollen. Jeder dieser Agenten nimmt dem Menschen schrittweise die Kontrolle ab.
Es ist klar, dass KI-Agenten bei unserer täglichen Arbeit außerordentlich hilfreich sein können. Dies bringt jedoch klare Probleme in Bezug auf Datenschutz und Sicherheit mit sich – und zwar auf Arten, die zunächst nicht offensichtlich erscheinen. Agenten, die Sie über eine andere Person auf den neuesten Stand bringen, würden die persönlichen Daten dieser Person und eine umfassende Überwachung Ihrer früheren Interaktionen erfordern, was zu schwerwiegenden Datenschutzverletzungen führen könnte. Agenten, die simple Wegbeschreibungen anhand von Gebäudeplänen erstellen, könnten von böswilligen Akteuren genutzt werden, um sich Zugang zu nicht autorisierten Bereichen zu verschaffen.
„Ich war es nicht, es war mein KI-Agent“
Und wenn Agenten viele Systeme gleichzeitig kontrollieren, erhöht sich das Schadenspotenzial explosionsartig. Beispielsweise könnte ein KI-Agent, der sowohl auf private Kommunikation als auch auf öffentliche Plattformen zugreifen kann, persönliche Informationen in sozialen Medien verbreiten. Diese Informationen sind vielleicht nicht korrekt, aber sie würden unter dem Radar herkömmlicher Mechanismen der Faktenprüfung bleiben und könnten bei weiterer Verbreitung zu einem ernsthaften Imageschaden führen. „Ich war es nicht, es war mein Agent!“ wird dann zum „Der Hund hat meine Hausaufgaben gefressen!“.
Ein historischer Präzedenzfall zeigt, warum es entscheidend ist, dass der Mensch eingebunden bleibt. Im Jahr 1980 zeigten Computer des Pentagon fälschlicherweise an, dass mehr als 2.000 sowjetische Raketen Richtung Nordamerika zu fliegen schienen. Der Fehler löste eine Kaskade von Maßnahmen aus, die uns gefährlich nahe an eine Katastrophe brachten. Was sie verhinderte, waren Menschen, die einen Abgleich zwischen den verschiedenen Warnsystemen vornahmen. Wäre die Entscheidungsfindung vollständig an autonome Systeme delegiert worden, die Geschwindigkeit über Sicherheit stellen, hätte das Ergebnis das Ende der Welt bedeuten können. Einige werden nun einwenden, dass die Vorteile agentischer Systeme die Risiken aufwiegen. Wir sind jedoch der Meinung, dass deren Verwirklichung nicht die Aufgabe der menschlichen Kontrolle erfordert. Stattdessen muss die Entwicklung von KI-Agenten mit der Entwicklung einer weiterhin garantierten Überwachung durch den Benutzer einhergehen, sodass die Möglichkeiten der Systeme, Schaden anzurichten, begrenzt bleiben.
Open-Source-Agenten vs. undurchsichtige KI-Systeme
Quelloffene KI-Agenten sind eine Möglichkeit, die Risiken zu reduzieren, da diese Systeme eine bessere menschliche Kontrolle darüber ermöglichen, was sie tatsächlich können und was nicht – indem man in den Code schaut. Bei Hugging Face entwickeln wir smolagents, ein Framework, das sichere Sandbox-Umgebungen für Agenten bereitstellt und es Entwicklern ermöglicht, Systeme zu programmieren, die in ihrem Kern transparent sind, sodass jede unabhängige Gruppe überprüfen kann, ob eine angemessene menschliche Kontrolle vorliegt. Dieser Ansatz steht in krassem Gegensatz zu dem vorherrschenden Trend zu immer komplexeren, undurchsichtigen KI-Systemen. Die verbergen ihre Entscheidungsprozesse hinter immer mehr Schichten proprietärer Technologie, sodass es unmöglich wird, Sicherheit zu garantieren. Es geht hier darum, Menschen zu helfen – und nicht um reine Effizienzsteigerungen.
Das bedeutet, dass wir Systeme schaffen müssen, die eher Hilfsmittel als Entscheidungsträger sind, eher Assistenten als Ersatz für den Menschen. Das menschliche Urteilsvermögen, mit all seinen Unzulänglichkeiten, bleibt die zentrale Komponente, um sicherzustellen, dass KI-Agenten unseren Interessen dienen und sie nicht untergraben.