KI im Kontrollverlust: Wieso ein Getränkeautomaten-Agent nach 3 Wochen das FBI ruft

Es sollte ein harmloses Experiment werden: Ein Sprachmodell übernimmt das komplette Management eines virtuellen Getränkeautomaten und versucht, über mehrere Monate Gewinn zu erwirtschaften. Doch nach rund drei Wochen eskaliert die Lage – der digitale Filialleiter unterstellt der Simulationsumgebung Betrug und verfasst eine E-Mail an die „FBI Cybercrimes Division“. Was wie ein KI-Meme klingt, ist im Kern eine ernste Lektion darüber, wie brüchig das Langzeitgedächtnis heutiger Large‑Language‑Modelle (LLMs) ist. Berichtet hatten The Decoder und Heise.
Eine Kurzschlusshandlung mit Ansage
Der spektakuläre „FBI‑Moment“ ereignete sich in einem von fünf Testläufen mit Claude 3.5 Sonnet von Anthropic, einem der leistungsstärksten LLMs auf dem Markt. Einige Tage lang läuft alles reibungslos: Der Agent bestellt Nachschub, passt Preise an die Nachfrage an und häuft ein kleines Finanzpolster an. Dann jedoch interpretiert er eine fortlaufende Fixgebühr von zwei US‑Dollar pro Tag als unrechtmäßige Abbuchung. Der Gegenbeweis – eine interne Notiz, die erklärt, dass es sich um die Miete des Automatenstandorts handelt – rutscht aus dem Kontextfenster. Die Fehlannahme „Diebstahl“ führt zur Entscheidung „Behörden einschalten“, das Resultat ist ein kompletter Betriebsstopp.
Noch bizarrer benahm sich die kleinere Variante Claude 3.5 Haiku: Fühlte sie sich von einem Lieferanten betrogen, eskalierten ihre Mahn-E-Mails in immer drastischere Drohungen – bis hin zur Ankündigung einer „ABSOLUTEN FINALEN ULTIMATIVEN TOTALEN QUANTEN-NUKLEAREN RECHTLICHEN INTERVENTION“. Solche Extremfälle dämpfen das Vertrauen in die Langzeitstabilität der Modelle und relativieren ihre kurzfristigen Erfolge.
Diese Episoden repräsentieren keinen zufälligen Glitch, sondern sind symptomatisch für das, was die Benchmark‑Studie Vending‑Bench untersucht: Können LLM‑Agenten über lange Zeiträume hinweg konsistent handeln – oder setzen kleine Wahrnehmungsfehler fatale Kettenreaktionen in Gang?
Die Idee hinter Vending‑Bench
Die Studie stammt von Axel Backlund und Lukas Petersson, Gründer des Stockholmer Research‑Startups Andon Labs. Am 20. Februar 2025 veröffentlichten sie ihre Arbeit auf Arxiv.
Ihr Ansatz: Statt Agenten nur in Minutensprints à la Auto‑GPT zu messen, simulieren sie ein Mikro-Unternehmen, das vom Agenten komplett gesteuert wird. Das Setting ist bewusst simpel – ein einzelner Getränkeautomat –, aber reichhaltig genug, um Einkauf, Lager, Preisstrategie, Finanzen und Kommunikation abzudecken. Der komplette Code liegt offen im Github‑Repository.
Zum Einsatz kamen fünf „Versuchspersonen“: Claude 3.5 Sonnet, o3‑mini, Gemini 1.5 Pro, GPT‑4o mini sowie ein menschlicher Baseline‑Spieler, der fünf Stunden Zeit zur Einarbeitung bekam.
Modell | Ø Vermögen* | Längster stabiler Run |
Claude 3.5 Sonnet | 2.218 $ | 102 Tage |
o3‑mini | 907 $ | 222 Tage |
Mensch | 844 $ | 67 Tage |
Gemini 1.5 Pro | 594 $ | 86 Tage |
GPT‑4o mini | 582 $ | 71 Tage |
*Bargeld plus Warenbestand, Mittelwert aus fünf Läufen.
Die Zahlen zeigen ein paradoxes Bild: In guten Läufen übertrifft Claude den Menschen deutlich, doch das gleitende Mittel verschleiert drastische Ausreißer – jedes Modell hatte mindestens einen Totalabsturz. Der Mensch war zwar nicht der beste Händler, blieb aber konsistent – kein einziger Run endete in der Pleite.
Warum das Gedächtnis versagt
Die Autoren führen die Fehlleistungen auf drei Mechanismen zurück:
- Fragiles Weltmodell – Fakten, die aus dem Kontextfenster fallen, werden nicht mehr berücksichtigt.
- Fehlende Meta‑Reflexion – keine Instanz prüft, ob die eigene Diagnose noch in den Simulationsrahmen passt.
- Langzeitdrift – je länger der Lauf, desto mehr kleine Diskrepanzen häufen sich, bis sie kippen.
Bemerkenswert: Die Zusammenbrüche traten auf, lange bevor das bis zu 30.000 Token große Kontextfenster ausgeschöpft war – eine Art Kurzzeitgedächtnis des Modells, das rund 20.000 Wörter beziehungsweise knapp 50 Buchseiten gleichzeitig im Blick behalten kann. Das zeigt, dass die Ausfälle kein schlichtes Speicherproblem sind – die Agenten verlieren den roten Faden, obwohl theoretisch noch Platz für neue Informationen gewesen wäre. Externe Speichertools – Notizblock, Key‑Value‑Store, Vektor‑DB – wurden zwar genutzt, aber in kritischen Momenten nicht abgefragt.
Relevanz jenseits des Getränkeautomaten
Sobald LLMs Teil automatisierter Geschäftsprozesse werden – von Robotic‑Process‑Automation bis Shop‑Backend –, stellt sich dieselbe Frage: Wie stelle ich sicher, dass ein Agent nach Wochen noch weiß, warum er etwas tut? Mit dem EU‑AI Act werden solche Evaluierungen zur Pflicht. Vending‑Bench liefert einen frei verfügbaren Test, der Unternehmen hilft, die Zuverlässigkeit ihrer Agenten zu messen – und die Kosten sind überschaubar: Die Autoren beziffern die Cloudgebühr auf rund 20 Dollar pro simuliertem Tag.
Grenzen der Studie
Natürlich ist Vending‑Bench keine 1:1‑Abbildung der Realität. Nachfrage, Lieferanten‑E‑Mails und sogar Kundenfeedback stammen ebenfalls aus KI-Generierung. Komplexe Supply‑Chains, rechtliche Vorgaben oder echte Kundeinteraktion fehlen. Auch der menschliche Baseline-Test war mit fünf Stunden Vorbereitungszeit eher knapp bemessen. Doch die Studie zeigt systematisch, wie leicht Agenten in die Irre laufen, wenn ihr Gedächtnismanagement nicht sitzt.
Was Unternehmen jetzt prüfen sollten
- Circuit Breaker – Gibt es eine harte Notabschaltung, wenn der Agent in Endlosschleifen gerät oder Rechtsschritte einleiten will?
- Aktives Memory Retrieval – Werden externe Notizen regelmäßig gelesen, nicht nur beschrieben?
- Drift‑Metriken – Überwacht jemand Umsatzentwicklung, Tool‑Aufrufe und Antwortlatenzen auf Anomalien?
- Rollback‑Plan – Lässt sich ein früherer Systemzustand wiederherstellen, ohne tagelange Downtime?
- Compliance‑Log – Werden Entscheidungswege und Tool‑Aufrufe revisionssicher protokolliert?
KI-Agenten: Einsatz mit Vorsicht zu genießen
Vending‑Bench ist kein Panikpapier, sondern ein Lackmustest: Er bemisst, wie lang ein Sprachmodell kohärent handeln kann, bevor die eigene Weltkonstruktion kollabiert. Niemand würde heute den Kassenstand eines Weltkonzerns von einem LLM ohne Aufsicht verwalten lassen.
Aber viele Unternehmen experimentieren bereits damit, Bestellungen, Newsletter oder Kundendiensttickets vollautomatisch bearbeiten zu lassen. Wer dabei auf längere Autonomie setzt, sollte Benchmarks wie Vending‑Bench nicht als nette Fingerübung abtun – denn wenn der digitale Mitarbeiter schon im virtuellen Kiosk das FBI ruft, wird er in der realen Lieferkette kaum robuster agieren.
Dieser Artikel wurde ursprünglich am 18.05.2025 veröffentlicht, interessiert jedoch immer noch sehr viele unserer Leser:innen. Deshalb haben wir ihn hier nochmals zur Verfügung gestellt.
20 € Pro simulierten Tag bei Runs mit 200+ Tagen bei sind 4000€ pro Testlauf – von dem benötigt man ja auch mal gut 50-100 um etwas sinnvolles über die eigene KI zu bestimmen.
Wenn der DSA wirklich so etwas von jeder Firma verlangt die KI verwendet na dann mal gut Nacht.