Anzeige
Anzeige
Anzeige
Anzeige
News
Verpasse keine News mehr!

10.000 Dollar Preisgeld: Neuer Benchmark fordert KI-Entwickler mit unlösbaren Minispielen heraus

ARC‑AGI‑3, ein neuer Benchmark von François Chollet, testet KI in Interaktion und Problemlösung – Menschen meistern ihn mühelos, aktuelle KI-Agenten aber scheitern noch komplett.

Von Christian Weindl
2 Min.
Artikel merken
Anzeige
Anzeige

KI-Benchmark: Derzeit scheitert künstliche Intelligenz an einfachen Puzzle-Spielen, wenn das Programm selbst verstehen muss, was die Aufgabe ist. (Symbolfoto: Andrey_Popov/Shutterstock)

François Chollet (ARC‑Schöpfer) hat auf X mit ARC‑AGI‑3 eine neue Testreihe zur Messung kognitiver Flexibilität vorgestellt. Der Ansatz: KI muss in völlig unbekannten Interaktionsspielen lernen – ähnlich wie Kinder neue Welten erkunden.

Anzeige
Anzeige

Während Menschen die Aufgaben in wenigen Minuten lösen, bleiben heutige KI bei null Punkten. Selbst die Developer‑Preview mit drei Minispielen wird von aktuellen Agenten durchweg nicht bewältigt.

Der große Unterschied: Interaktion statt reiner Ergebnissuche

ARC‑AGI‑3 zeichnet sich durch interaktive Grid‑World‑Minispiele aus, bei denen KI‑Agenten selbst durch Exploration, Planung und Versuch‑und‑Irrtum die Spielregeln erkennen müssen.

Anzeige
Anzeige

Anders als bei statischen Benchmarks geht es hier laut der Website des Tests nicht darum, lediglich auf Daten zu reagieren, sondern um aktives Lernen ohne Vorwissen.

Dieser Fokus auf “Core Knowledge Priors” – etwa Objektpermanenz oder Kausalität – hebt ARC‑AGI‑3 deutlich ab: Trivia‑Wissen und kulturelle Referenzen sind bewusst ausgeschlossen.

Menschen vs. Maschinen: Die bisherigen Ergebnisse

Die Developer‑Preview umfasst drei Spiele. Wie die Highscore-Tabelle belegt, knacken Menschen sie in wenigen Minuten, KI‑Systeme erzielen bislang aber regelmäßig null Punkte. Das zeigt: Trotz beeindruckender Leistungen bei Sprach- oder Logikaufgaben fehlt es KI‑Agenten noch an grundsätzlicher Lernfähigkeit.

Laut Chollets Projektbeschreibung ist das interaktive Lernen entscheidend – bisherige KI könne vieles, aber „keine allgemeine Intelligenz haben, solange dieser Graben besteht“.

Anzeige
Anzeige

Überraschend: OpenAI‑Forscher Sun berichtet auf X, ein neuer ChatGPT Agent könne immerhin das erste Spiel lösen – ein kleiner Lichtblick, aber noch lange kein Durchbruch.

ARC‑AGI‑3 als Innovationsmotor

Zusätzlich zur Preview startet ein vierwöchiger Code‑Sprint mit 10.000 US-Dollar Preisgeld, gesponsert von Hugging Face – Teilnehmer sollen eigene Agenten entwickeln und über eine öffentliche API einreichen.

Bis Anfang 2026 soll der vollständige Benchmark mit rund hundert Spielen online gehen, aufgeteilt in öffentliche und private Test-Sets. Dieser strukturierte, offene Wettbewerb zielt darauf ab, Fortschritte gezielt voranzutreiben – weg von isolierten Spezialleistungen hin zu echtem, selbst gesteuertem Lernen.

Anzeige
Anzeige

Benchmarks: Wie schlau sind KI-Modelle?

KI-Benchmarks gibt es mittlerweile viele. Die Marker sollen einerseits messen, wie fortgeschritten KI-Sprachmodelle schon sind, andererseits stellen sie auch Herausforderungen dar, die es zu überwinden gilt, um die Programme noch besser zu machen.

Wie aussagekräftig die jeweiligen Meilensteine sind, darüber gibt es unter Expert:innen aber regelmäßig geteilte Meinungen. Die derzeitigen Tests zeigen, dass KI vor allem in Bereichen wie Kontextualisierung und selbstständigem Lernen noch ausbaufähig ist.

15 lustige von KI generierte Bilder

15 lustige von KI generierte Bilder Quelle: Google

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren