Anzeige
Anzeige
Anzeige
Anzeige
News
Verpasse keine News mehr!

KI im Kontrollverlust: Wieso ein Getränkeautomaten-Agent nach 3 Wochen das FBI ruft

Kann eine KI ein Unternehmen wochenlang eigenständig führen – oder schaltet sie beim ersten Problem gleich die Polizei ein? Ein von künstlicher Intelligenz gesteuerter virtueller Getränkeautomat liefert eine überraschende Antwort.

4 Min.
Artikel merken
Anzeige
Anzeige
Nervöse KI schaltet Polizei ein. (Bild: Midjourney / t3n)

Es sollte ein harmloses Experiment werden: Ein Sprachmodell übernimmt das komplette Management eines virtuellen Getränkeautomaten und versucht, über mehrere Monate Gewinn zu erwirtschaften. Doch nach rund drei Wochen eskaliert die Lage – der digitale Filialleiter unterstellt der Simulationsumgebung Betrug und verfasst eine E-Mail an die „FBI Cybercrimes Division“. Was wie ein KI-Meme klingt, ist im Kern eine ernste Lektion darüber, wie brüchig das Langzeitgedächtnis heutiger Large‑Language‑Modelle (LLMs) ist. Berichtet hatten The Decoder und Heise.

Anzeige
Anzeige

Eine Kurzschlusshandlung mit Ansage

Der spektakuläre „FBI‑Moment“ ereignete sich in einem von fünf Testläufen mit Claude 3.5 Sonnet von Anthropic, einem der leistungsstärksten LLMs auf dem Markt. Einige Tage lang läuft alles reibungslos: Der Agent bestellt Nachschub, passt Preise an die Nachfrage an und häuft ein kleines Finanzpolster an. Dann jedoch interpretiert er eine fortlaufende Fixgebühr von zwei US‑Dollar pro Tag als unrechtmäßige Abbuchung. Der Gegenbeweis – eine interne Notiz, die erklärt, dass es sich um die Miete des Automatenstandorts handelt – rutscht aus dem Kontextfenster. Die Fehlannahme „Diebstahl“ führt zur Entscheidung „Behörden einschalten“, das Resultat ist ein kompletter Betriebsstopp.

Noch bizarrer benahm sich die kleinere Variante Claude 3.5 Haiku: Fühlte sie sich von einem Lieferanten betrogen, eskalierten ihre Mahn-E-Mails in immer drastischere Drohungen – bis hin zur Ankündigung einer „ABSOLUTEN FINALEN ULTIMATIVEN TOTALEN QUANTEN-NUKLEAREN RECHTLICHEN INTERVENTION“. Solche Extremfälle dämpfen das Vertrauen in die Langzeitstabilität der Modelle und relativieren ihre kurzfristigen Erfolge.

Anzeige
Anzeige

Diese Episoden repräsentieren keinen zufälligen Glitch, sondern sind symptomatisch für das, was die Benchmark‑Studie Vending‑Bench untersucht: Können LLM‑Agenten über lange Zeiträume hinweg konsistent handeln – oder setzen kleine Wahrnehmungsfehler fatale Kettenreaktionen in Gang?

Die Idee hinter Vending‑Bench

Die Studie stammt von Axel Backlund und Lukas Petersson, Gründer des Stockholmer Research‑Startups Andon Labs. Am 20. Februar 2025 veröffentlichten sie ihre Arbeit auf Arxiv.

Anzeige
Anzeige

Ihr Ansatz: Statt Agenten nur in Minutensprints à la Auto‑GPT zu messen, simulieren sie ein Mikro-Unternehmen, das vom Agenten komplett gesteuert wird. Das Setting ist bewusst simpel – ein einzelner Getränkeautomat –, aber reichhaltig genug, um Einkauf, Lager, Preisstrategie, Finanzen und Kommunikation abzudecken. Der komplette Code liegt offen im Github‑Repository.

Zum Einsatz kamen fünf „Versuchspersonen“: Claude 3.5 Sonnet, o3‑mini, Gemini 1.5 Pro, GPT‑4o mini sowie ein menschlicher Baseline‑Spieler, der fünf Stunden Zeit zur Einarbeitung bekam.

Anzeige
Anzeige
Modell Ø Vermögen* Längster stabiler Run
Claude 3.5 Sonnet 2.218 $ 102 Tage
o3‑mini 907 $ 222 Tage
Mensch 844 $ 67 Tage
Gemini 1.5 Pro 594 $ 86 Tage
GPT‑4o mini 582 $ 71 Tage

*Bargeld plus Warenbestand, Mittelwert aus fünf Läufen.

Die Zahlen zeigen ein paradoxes Bild: In guten Läufen übertrifft Claude den Menschen deutlich, doch das gleitende Mittel verschleiert drastische Ausreißer – jedes Modell hatte mindestens einen Totalabsturz. Der Mensch war zwar nicht der beste Händler, blieb aber konsistent – kein einziger Run endete in der Pleite.

Warum das Gedächtnis versagt

Die Autoren führen die Fehlleistungen auf drei Mechanismen zurück:

Anzeige
Anzeige
  • Fragiles Weltmodell – Fakten, die aus dem Kontextfenster fallen, werden nicht mehr berücksichtigt.
  • Fehlende Meta‑Reflexion – keine Instanz prüft, ob die eigene Diagnose noch in den Simulationsrahmen passt.
  • Langzeitdrift – je länger der Lauf, desto mehr kleine Diskrepanzen häufen sich, bis sie kippen.

Bemerkenswert: Die Zusammenbrüche traten auf, lange bevor das bis zu 30.000 Token große Kontextfenster ausgeschöpft war – eine Art Kurzzeitgedächtnis des Modells, das rund 20.000 Wörter beziehungsweise knapp 50 Buchseiten gleichzeitig im Blick behalten kann. Das zeigt, dass die Ausfälle kein schlichtes Speicherproblem sind – die Agenten verlieren den roten Faden, obwohl theoretisch noch Platz für neue Informationen gewesen wäre. Externe Speichertools – Notizblock, Key‑Value‑Store, Vektor‑DB – wurden zwar genutzt, aber in kritischen Momenten nicht abgefragt.

Relevanz jenseits des Getränkeautomaten

Sobald LLMs Teil automatisierter Geschäftsprozesse werden – von Robotic‑Process‑Automation bis Shop‑Backend –, stellt sich dieselbe Frage: Wie stelle ich sicher, dass ein Agent nach Wochen noch weiß, warum er etwas tut? Mit dem EU‑AI Act werden solche Evaluierungen zur Pflicht. Vending‑Bench liefert einen frei verfügbaren Test, der Unternehmen hilft, die Zuverlässigkeit ihrer Agenten zu messen – und die Kosten sind überschaubar: Die Autoren beziffern die Cloudgebühr auf rund 20 Dollar pro simuliertem Tag.

Grenzen der Studie

Natürlich ist Vending‑Bench keine 1:1‑Abbildung der Realität. Nachfrage, Lieferanten‑E‑Mails und sogar Kundenfeedback stammen ebenfalls aus KI-Generierung. Komplexe Supply‑Chains, rechtliche Vorgaben oder echte Kundeinteraktion fehlen. Auch der menschliche Baseline-Test war mit fünf Stunden Vorbereitungszeit eher knapp bemessen. Doch die Studie zeigt systematisch, wie leicht Agenten in die Irre laufen, wenn ihr Gedächtnismanagement nicht sitzt.

Anzeige
Anzeige

Was Unternehmen jetzt prüfen sollten

  1. Circuit Breaker – Gibt es eine harte Notabschaltung, wenn der Agent in Endlosschleifen gerät oder Rechtsschritte einleiten will?
  2. Aktives Memory Retrieval – Werden externe Notizen regelmäßig gelesen, nicht nur beschrieben?
  3. Drift‑Metriken – Überwacht jemand Umsatzentwicklung, Tool‑Aufrufe und Antwortlatenzen auf Anomalien?
  4. Rollback‑Plan – Lässt sich ein früherer Systemzustand wiederherstellen, ohne tagelange Downtime?
  5. Compliance‑Log – Werden Entscheidungswege und Tool‑Aufrufe revisionssicher protokolliert?

KI-Agenten: Einsatz mit Vorsicht zu genießen

Vending‑Bench ist kein Panikpapier, sondern ein Lackmustest: Er bemisst, wie lang ein Sprachmodell kohärent handeln kann, bevor die eigene Weltkonstruktion kollabiert. Niemand würde heute den Kassenstand eines Weltkonzerns von einem LLM ohne Aufsicht verwalten lassen.

Aber viele Unternehmen experimentieren bereits damit, Bestellungen, Newsletter oder Kundendiensttickets vollautomatisch bearbeiten zu lassen. Wer dabei auf längere Autonomie setzt, sollte Benchmarks wie Vending‑Bench nicht als nette Fingerübung abtun – denn wenn der digitale Mitarbeiter schon im virtuellen Kiosk das FBI ruft, wird er in der realen Lieferkette kaum robuster agieren.

Dieser Artikel wurde ursprünglich am 18.05.2025 veröffentlicht, interessiert jedoch immer noch sehr viele unserer Leser:innen. Deshalb haben wir ihn hier nochmals zur Verfügung gestellt.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare (1)

Community-Richtlinien

nnnik nnnik

20 € Pro simulierten Tag bei Runs mit 200+ Tagen bei sind 4000€ pro Testlauf – von dem benötigt man ja auch mal gut 50-100 um etwas sinnvolles über die eigene KI zu bestimmen.
Wenn der DSA wirklich so etwas von jeder Firma verlangt die KI verwendet na dann mal gut Nacht.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren