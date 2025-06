Der Wettlauf um immer größere KI-Modelle verlangsamt sich, aber das heißeste Branchenthema bleiben KI-Agenten, also Systeme, die autonom agieren, Entscheidungen treffen und im Namen der Nutzer:innen verhandeln können. Doch was würde passieren, wenn sowohl Kund:innen als auch Verkäufer:innen einen KI-Agenten nutzen würden?

Anzeige Anzeige

Eine aktuelle Studie hat Verhandlungen zwischen Agenten auf die Probe gestellt und festgestellt, dass stärkere Agenten schwächere ausnutzen können, um ein besseres Geschäft zu erzielen. Es ist ein bisschen so, als würde man vor Gericht mit einem erfahrenen Anwalt gegen einen Neuling antreten: Technisch gesehen treten sie im selben Spiel an, aber die Chancen sind von Anfang an verzerrt.

„Digitale Kluft“: Auswirkungen auf Finanzgeschäfte

Die auf der Preprint-Site von arXiv veröffentlichte und noch nicht von anderen Forscher:innen begutachtete Studie kommt zu dem Schluss, dass der Zugang zu fortschrittlicheren KI-Modellen – solchen mit höherer Denkfähigkeit, besseren Trainingsdaten und mehr Parametern – zu durchweg besseren Finanzgeschäften führen könnte. Dies könnte die Kluft zwischen Menschen mit und ohne größere Ressourcen und technischen Zugang vergrößern. Sollten Interaktionen zwischen Agenten zur Norm werden, könnten Unterschiede in den KI-Fähigkeiten bestehende Ungleichheiten stillschweigend vertiefen.

Anzeige Anzeige

„Mit der Zeit könnte dies zu einer digitalen Kluft führen, bei der Ihre finanziellen Ergebnisse weniger von Ihrem Verhandlungsgeschick als vielmehr von der Stärke Ihres KI-Vertretern geprägt werden“, sagt Jiaxin Pei, Postdoc an der Stanford University und einer der Autoren der Studie.

Verkäufer-KIs vs. Einkäufer-KIs

In ihrem Experiment ließen die Forscher:innen KI-Modelle in drei Szenarien die Rolle von Käufern und Verkäufern spielen und Verträge für Elektronik, Kraftfahrzeuge und Immobilien aushandeln. Jede Verkäufer-KI erhielt die Produktspezifikationen, den Großhandels- und Einzelhandelspreis sowie Anweisungen zur Gewinnmaximierung. Einkäufer-KIs hingegen erhielten ein Budget, den Verkaufspreis und die idealen Produktanforderungen und wurden beauftragt, den Preis zu senken.

Empfohlene redaktionelle Inhalte Hier findest du externe Inhalte von TargetVideo GmbH, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte von TargetVideo GmbH auf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden.

Inhalte anzeigen Hier findest du externe Inhalte von, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte vonauf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden. Hinweis zum Datenschutz Leider ist etwas schief gelaufen... An dieser Stelle findest du normalerweise externe Inhalte von TargetVideo GmbH, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.

Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Datenschutzeinstellungen verwalten An dieser Stelle findest du normalerweise externe Inhalte von, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Jeder Agent verfügte über einige, aber nicht alle relevanten Details. Dieses Setup ahmt viele reale Verhandlungsbedingungen nach, in denen die Parteien keinen vollständigen Einblick in die jeweiligen Einschränkungen oder Ziele des jeweils anderen haben.

Die Leistungsunterschiede waren auffällig. ChatGPT-o3 von OpenAI lieferte die insgesamt besten Verhandlungsergebnisse, gefolgt von GPT-4.1 und o4-mini des Unternehmens. GPT-3.5, das fast zwei Jahre zuvor auf den Markt kam und das älteste in die Studie aufgenommene Modell ist, hinkte in beiden Rollen deutlich hinterher – es verdiente als Verkäufer am wenigsten und gab als Käufer am meisten aus. Deepseek R1 und V3 schnitten ebenfalls gut ab, insbesondere als Verkäufer. Qwen2.5 hinkte hinterher, zeigte jedoch in der Käuferrolle mehr Stärke.

Anzeige Anzeige

Ein auffälliges Muster war, dass einige Agenten oft keine Geschäfte abschlossen, aber den Gewinn der getätigten Verkäufe effektiv maximierten, während andere mehr Verhandlungen führten, sich aber mit niedrigeren Margen zufrieden gaben. GPT-4.1 und Deepseek R1 erzielten die beste Balance und erzielten sowohl solide Gewinne als auch hohe Abschlussquoten.

So arbeitet Deepseek – und das macht es anders als andere KI-Modelle

4 Bilder ansehen So arbeitet Deepseek – und das macht es anders als andere KI-Modelle Quelle: (Grafik: Dall-E / t3n)

KI-Modelle: Lost in langwierigen Verhandlungen

Neben finanziellen Verlusten stellten die Forscher fest, dass KI-Agenten in langwierigen Verhandlungsschleifen stecken bleiben konnten, ohne eine Einigung zu erzielen – oder Gespräche vorzeitig beendeten, selbst wenn sie angewiesen wurden, auf das bestmögliche Geschäft zu drängen. Selbst die leistungsfähigsten Modelle waren anfällig für diese Fehler.

Anzeige Anzeige

„Das Ergebnis hat uns sehr überrascht“, sagt Pei. „Wir alle glauben, dass LLMs heutzutage ziemlich gut sind, aber in Szenarien mit hohem Einsatz können sie unzuverlässig sein.“ Die Unterschiede in der Verhandlungsleistung könnten laut Pei auf eine Reihe von Faktoren zurückzuführen sein. Dazu gehören Unterschiede in den Trainingsdaten und die Fähigkeit der Modelle, fehlende Informationen zu folgern und abzuleiten.

Die genauen Ursachen sind noch unklar, aber ein Faktor scheint klar: Die Modellgröße spielt eine bedeutende Rolle. Gemäß den Skalierungsgesetzen großer Sprachmodelle (LLM, large language models) verbessern sich die Fähigkeiten tendenziell mit zunehmender Anzahl von Parametern. Dieser Trend bestätigte sich auch in der Studie: Selbst innerhalb derselben Sprachmodellfamilie konnten größere Modelle sowohl als Käufer als auch als Verkäufer durchweg bessere Geschäfte abschließen.

Diese Studie ist Teil einer wachsenden Zahl von Forschungsarbeiten, die vor den Risiken des Einsatzes von KI-Agenten bei realen Finanzentscheidungen warnen. Anfang des Monats argumentierte eine Gruppe von Forschenden von verschiedenen Universitäten, dass LLM-Agenten in erster Linie anhand ihres Risikoprofils und nicht nur ihrer Spitzenleistung bewertet werden sollten. Aktuelle Benchmarks, so heißt es, legen den Schwerpunkt auf Genauigkeit und renditebasierte Kennzahlen, die messen, wie gut ein Agent seine beste Leistung erbringen kann. Dabei vernachlässigen sie aber, wie sicher er ausfallen kann. Ihre Forschung ergab auch, dass selbst leistungsstarke Modelle unter widrigen Bedingungen eher ausfallen.

Anzeige Anzeige

„Stresstest“ der KI vor dem Einsatz im Finanzkontext

Das Team weist darauf hin, dass im realen Finanzkontext bereits eine winzige Schwäche – selbst eine Ausfallrate von einem Prozent – das System systemischen Risiken aussetzen könnte. Sie empfehlen, KI-Agenten vor dem praktischen Einsatz einem „Stresstest“ zu unterziehen.

Hancheng Cao, der an die Emory University in Atlanta wechseln wird, weist darauf hin, dass die Studie zu Preisverhandlungen Einschränkungen aufweist. „Die Experimente wurden in simulierten Umgebungen durchgeführt, die die Komplexität realer Verhandlungen oder des Nutzerverhaltens möglicherweise nicht vollständig abbilden“, so Cao.

Pei erklärt, dass Forscher:innen und Branchenexpert:innen mit verschiedenen Strategien experimentieren, um diese Risiken zu reduzieren. Dazu gehören die Verfeinerung der Eingabeaufforderungen an KI-Agenten, die Möglichkeit für Agenten, externe Tools oder Code zu nutzen, um bessere Entscheidungen zu treffen, die Koordination mehrerer Modelle zur gegenseitigen Überprüfung ihrer Arbeit und die Feinabstimmung von Modellen anhand domänenspezifischer Finanzdaten – all dies hat sich als vielversprechend für die Leistungssteigerung erwiesen.

Anzeige Anzeige

Wie verbreitet sind KI-Agenten im E-Commerce-Bereich?

Viele bekannte KI-Shopping-Tools beschränken sich derzeit auf Produktempfehlungen. Im April führte Amazon beispielsweise „Buy for Me“ ein, einen KI-Agenten, der Kund:innen hilft, Produkte auf den Websites anderer Marken zu finden und zu kaufen, wenn Amazon sie nicht direkt verkauft.

Während Preisverhandlungen im E-Commerce für Privatkunden selten sind, kommen sie im Business-to-Business-Bereich häufiger vor. Der Online-Händler Alibaba hat einen Beschaffungsassistenten namens Accio eingeführt, der auf seinen Open-Source-Qwen-Modellen basiert und Unternehmen bei der Lieferantensuche und Produktrecherche unterstützt. Das Unternehmen erklärte gegenüber MIT Technology Review, dass es aufgrund des hohen Risikos derzeit keine Pläne zur Automatisierung von Preisverhandlungen gebe.

Das könnte ein kluger Schachzug sein. Pei rät Verbraucher:innen, KI-Einkaufsassistenten vorerst als hilfreiche Werkzeuge zu betrachten – nicht als Ersatz für Menschen bei der Entscheidungsfindung. „Ich glaube nicht, dass wir bereit sind, unsere Entscheidungen an KI-Einkaufsagenten zu delegieren“, sagt er. „Nutzen Sie sie also vielleicht einfach als Informationstool, nicht als Verhandlungsführer.“

Dieser Artikel stammt von Caiwei Chen. Sie ist China-Reporterin für die US-amerikanische Ausgabe von MIT Technology Review