10.000 Dollar Preisgeld: Neuer Benchmark fordert KI-Entwickler mit unlösbaren Minispielen heraus

News

10.000 Dollar Preisgeld: Neuer Benchmark fordert KI-Entwickler mit unlösbaren Minispielen heraus

ARC‑AGI‑3, ein neuer Benchmark von François Chollet, testet KI in Interaktion und Problemlösung – Menschen meistern ihn mühelos, aktuelle KI-Agenten aber scheitern noch komplett.

Von Christian Weindl

27.07.2025, 07:10 Uhr • 2 Min.

10.000 Dollar Preisgeld: Neuer Benchmark fordert KI-Entwickler mit unlösbaren Minispielen heraus — KI-Benchmark: Derzeit scheitert künstliche Intelligenz an einfachen Puzzle-Spielen, wenn das Programm selbst verstehen muss, was die Aufgabe ist. (Symbolfoto: Andrey_Popov/Shutterstock)

François Chollet (ARC‑Schöpfer) hat auf X mit ARC‑AGI‑3 eine neue Testreihe zur Messung kognitiver Flexibilität vorgestellt. Der Ansatz: KI muss in völlig unbekannten Interaktionsspielen lernen – ähnlich wie Kinder neue Welten erkunden.

Während Menschen die Aufgaben in wenigen Minuten lösen, bleiben heutige KI bei null Punkten. Selbst die Developer‑Preview mit drei Minispielen wird von aktuellen Agenten durchweg nicht bewältigt.

Der große Unterschied: Interaktion statt reiner Ergebnissuche

ARC‑AGI‑3 zeichnet sich durch interaktive Grid‑World‑Minispiele aus, bei denen KI‑Agenten selbst durch Exploration, Planung und Versuch‑und‑Irrtum die Spielregeln erkennen müssen.

Empfehlungen der Redaktion

MIT Technology Review News

Recruiting und Marketing: Neuer chinesischer KI-Benchmark testet Modelle auf ihre Praxistauglichkeit

MIT Technology Review News

Neuer Benchmark soll zeigen, wie sehr dir deine KI nach dem Mund redet

News

Bei diesem neuen Mathe-Benchmark versagen selbst die besten KI-Systeme

Anders als bei statischen Benchmarks geht es hier laut der Website des Tests nicht darum, lediglich auf Daten zu reagieren, sondern um aktives Lernen ohne Vorwissen.

Dieser Fokus auf “Core Knowledge Priors” – etwa Objektpermanenz oder Kausalität – hebt ARC‑AGI‑3 deutlich ab: Trivia‑Wissen und kulturelle Referenzen sind bewusst ausgeschlossen.

Menschen vs. Maschinen: Die bisherigen Ergebnisse

Die Developer‑Preview umfasst drei Spiele. Wie die Highscore-Tabelle belegt, knacken Menschen sie in wenigen Minuten, KI‑Systeme erzielen bislang aber regelmäßig null Punkte. Das zeigt: Trotz beeindruckender Leistungen bei Sprach- oder Logikaufgaben fehlt es KI‑Agenten noch an grundsätzlicher Lernfähigkeit.

Laut Chollets Projektbeschreibung ist das interaktive Lernen entscheidend – bisherige KI könne vieles, aber „keine allgemeine Intelligenz haben, solange dieser Graben besteht“.

Überraschend: OpenAI‑Forscher Sun berichtet auf X, ein neuer ChatGPT Agent könne immerhin das erste Spiel lösen – ein kleiner Lichtblick, aber noch lange kein Durchbruch.

ARC‑AGI‑3 als Innovationsmotor

Zusätzlich zur Preview startet ein vierwöchiger Code‑Sprint mit 10.000 US-Dollar Preisgeld, gesponsert von Hugging Face – Teilnehmer sollen eigene Agenten entwickeln und über eine öffentliche API einreichen.

Bis Anfang 2026 soll der vollständige Benchmark mit rund hundert Spielen online gehen, aufgeteilt in öffentliche und private Test-Sets. Dieser strukturierte, offene Wettbewerb zielt darauf ab, Fortschritte gezielt voranzutreiben – weg von isolierten Spezialleistungen hin zu echtem, selbst gesteuertem Lernen.

Benchmarks: Wie schlau sind KI-Modelle?

KI-Benchmarks gibt es mittlerweile viele. Die Marker sollen einerseits messen, wie fortgeschritten KI-Sprachmodelle schon sind, andererseits stellen sie auch Herausforderungen dar, die es zu überwinden gilt, um die Programme noch besser zu machen.

Wie aussagekräftig die jeweiligen Meilensteine sind, darüber gibt es unter Expert:innen aber regelmäßig geteilte Meinungen. Die derzeitigen Tests zeigen, dass KI vor allem in Bereichen wie Kontextualisierung und selbstständigem Lernen noch ausbaufähig ist.

15 lustige von KI generierte Bilder

Eine Drachenfrucht im Schnee trägt einen Karategürtel – Dieses Bild hat Google Imagen daraus gemacht. — 15 lustige von KI generierte Bilder Quelle: Google

Bildergalerie ansehen

Mehr zu diesem Thema

MIT Technology Review Künstliche Intelligenz Teamwork

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Brands

Themen

Magazine

Skills

10.000 Dollar Preisgeld: Neuer Benchmark fordert KI-Entwickler mit unlösbaren Minispielen heraus

Der große Unterschied: Interaktion statt reiner Ergebnissuche

Menschen vs. Maschinen: Die bisherigen Ergebnisse

ARC‑AGI‑3 als Innovationsmotor

Benchmarks: Wie schlau sind KI-Modelle?

15 lustige von KI generierte Bilder