10.000 Dollar Preisgeld: Neuer Benchmark fordert KI-Entwickler mit unlösbaren Minispielen heraus

KI-Benchmark: Derzeit scheitert künstliche Intelligenz an einfachen Puzzle-Spielen, wenn das Programm selbst verstehen muss, was die Aufgabe ist. (Symbolfoto: Andrey_Popov/Shutterstock)
François Chollet (ARC‑Schöpfer) hat auf X mit ARC‑AGI‑3 eine neue Testreihe zur Messung kognitiver Flexibilität vorgestellt. Der Ansatz: KI muss in völlig unbekannten Interaktionsspielen lernen – ähnlich wie Kinder neue Welten erkunden.
Während Menschen die Aufgaben in wenigen Minuten lösen, bleiben heutige KI bei null Punkten. Selbst die Developer‑Preview mit drei Minispielen wird von aktuellen Agenten durchweg nicht bewältigt.
Der große Unterschied: Interaktion statt reiner Ergebnissuche
ARC‑AGI‑3 zeichnet sich durch interaktive Grid‑World‑Minispiele aus, bei denen KI‑Agenten selbst durch Exploration, Planung und Versuch‑und‑Irrtum die Spielregeln erkennen müssen.
Anders als bei statischen Benchmarks geht es hier laut der Website des Tests nicht darum, lediglich auf Daten zu reagieren, sondern um aktives Lernen ohne Vorwissen.
Dieser Fokus auf “Core Knowledge Priors” – etwa Objektpermanenz oder Kausalität – hebt ARC‑AGI‑3 deutlich ab: Trivia‑Wissen und kulturelle Referenzen sind bewusst ausgeschlossen.
Menschen vs. Maschinen: Die bisherigen Ergebnisse
Die Developer‑Preview umfasst drei Spiele. Wie die Highscore-Tabelle belegt, knacken Menschen sie in wenigen Minuten, KI‑Systeme erzielen bislang aber regelmäßig null Punkte. Das zeigt: Trotz beeindruckender Leistungen bei Sprach- oder Logikaufgaben fehlt es KI‑Agenten noch an grundsätzlicher Lernfähigkeit.
Laut Chollets Projektbeschreibung ist das interaktive Lernen entscheidend – bisherige KI könne vieles, aber „keine allgemeine Intelligenz haben, solange dieser Graben besteht“.
Überraschend: OpenAI‑Forscher Sun berichtet auf X, ein neuer ChatGPT Agent könne immerhin das erste Spiel lösen – ein kleiner Lichtblick, aber noch lange kein Durchbruch.
ARC‑AGI‑3 als Innovationsmotor
Zusätzlich zur Preview startet ein vierwöchiger Code‑Sprint mit 10.000 US-Dollar Preisgeld, gesponsert von Hugging Face – Teilnehmer sollen eigene Agenten entwickeln und über eine öffentliche API einreichen.
Bis Anfang 2026 soll der vollständige Benchmark mit rund hundert Spielen online gehen, aufgeteilt in öffentliche und private Test-Sets. Dieser strukturierte, offene Wettbewerb zielt darauf ab, Fortschritte gezielt voranzutreiben – weg von isolierten Spezialleistungen hin zu echtem, selbst gesteuertem Lernen.
Benchmarks: Wie schlau sind KI-Modelle?
KI-Benchmarks gibt es mittlerweile viele. Die Marker sollen einerseits messen, wie fortgeschritten KI-Sprachmodelle schon sind, andererseits stellen sie auch Herausforderungen dar, die es zu überwinden gilt, um die Programme noch besser zu machen.
Wie aussagekräftig die jeweiligen Meilensteine sind, darüber gibt es unter Expert:innen aber regelmäßig geteilte Meinungen. Die derzeitigen Tests zeigen, dass KI vor allem in Bereichen wie Kontextualisierung und selbstständigem Lernen noch ausbaufähig ist.
15 lustige von KI generierte Bilder