Künstliche Intelligenz auf dem Prüfstand: AGI-Test deckt Schwächen aktueller KI-Modelle auf

AGI oder nicht AGI? Um diese Frage zu beantworten, hat die gemeinnützige Arc Prize Foundation, die vom KI-Forscher François Chollet mitgegründet wurde, einen neuen, besonders anspruchsvollen Benchmark-Test zur Messung allgemeiner künstlicher Intelligenz (AGI) entwickelt. Wie Techcrunch berichtet, haben die Ergebnisse ein ernüchterndes Bild gezeichnet, denn die meisten KI-Modelle zeigten sich mit den Aufgaben des neuen „Arc-AGI-2“-Tests deutlich überfordert.
KI-Modelle versagen im neuen Benchmark-Test
Unternehmen hinter fortschrittlichen KI-Modellen wie o1-pro oder R1 betonen häufig die angeblich hohe Intelligenz ihrer Systeme. Auch OpenAI-Chef Sam Altman sowie Mitarbeiter:innen des Unternehmens haben wiederholt erklärt, die Schwelle zur AGI sei erreicht – nur um diese Aussagen später teilweise zu relativieren. Wie leistungsfähig aktuelle Modelle tatsächlich sind, soll jetzt der neue Benchmark-Test der Arc Prize Foundation prüfen.
„Arc-AGI-2“ besteht aus einer Reihe puzzleartiger Aufgaben, bei denen eine KI visuelle Muster in farbigen Quadratrastern erkennen und das korrekte Antwortgitter generieren muss. Die Tests sind so gestaltet, dass die Modelle mit unbekannten Herausforderungen konfrontiert werden – sie müssen sich an neue Probleme anpassen, die nicht Teil ihres Trainings waren. Ziel ist es, zu untersuchen, ob ein KI-Modell in der Lage ist, außerhalb seiner Trainingsdaten neue Fähigkeiten zu entwickeln.
Die Ergebnisse fallen allerdings ernüchternd aus: Reasoning-Modelle wie o1-pro von OpenAI und R1 von Deepseek erzielten im „Arc-AGI-2“-Test lediglich zwischen einem und 1,3 Prozent. Andere leistungsfähige Modelle wie GPT-4.5, Claude 3.7 Sonnet und Gemini 2.0 Flash – die nicht speziell für logisches Denken ausgelegt sind – lagen bei rund einem Prozent. Zum Vergleich: Die Arc Prize Foundation ließ 400 Menschen dieselben Puzzle-Aufgaben bearbeiten. Im Durchschnitt beantworteten sie 60 Prozent der Fragen korrekt – und lagen damit deutlich vor den getesteten KI-Systemen.
KI-Expert:innen beklagen Mangel an aussagekräftigen Tests
Der Vorgängertest „Arc-AGI-1“ wird seit 2019 eingesetzt, um den Fortschritt auf dem Weg zu AGI zu bewerten. Laut einem Blog-Beitrag der Arc Prize Foundation war er bis Ende 2024 der einzige Benchmark-Test, der präzise erfassen konnte, wann ein KI-Modell über reines Auswendiglernen hinausgeht. OpenAI nutzte den „Arc-AGI-1“-Test beispielsweise, um diesen Fortschritt mit seinem o3-System zu demonstrieren, das auf Deep Learning basierende LLMs mit logischen Synthesemaschinen kombiniert.
Zuletzt wurde allerdings vermehrt Kritik laut: Expert:innen bemängelten, dass es an aussagekräftigen Tests fehle, um zentrale Eigenschaften von AGI zuverlässig zu messen – insbesondere Aspekte wie Effizienz oder Kreativität. Auch François Chollet von der Arc Prize Foundation räumte ein, dass der bisherige „Arc-AGI-1“-Test Schwächen aufwies. Ein zentrales Problem: KI-Modelle konnten die Aufgaben bislang allein durch hohe Rechenleistung lösen, ohne tatsächlich generalisierende Fähigkeiten zu zeigen.
Um diese Schwäche auszubessern, wurde im neuen „Arc-AGI-2“-Benchmark-Test ein zusätzlicher Bewertungsfaktor eingeführt – nämlich die Effizienz. Gerade in diesem Bereich offenbaren sich erhebliche Schwächen: Während das OpenAI-Modell o3-low im „Arc-AGI-1“-Test mit einem Rechenaufwand von rund 200 US-Dollar pro Aufgabe mehr als 75 Prozent korrekt löste, erreicht es im neuen „Arc-AGI-2“-Benchmark-Test mit derselben Rechenleistung lediglich vier Prozent.
Wettbewerb ruft zu Innovationen auf dem Weg zu AGI auf
Der neue Test „Arc-AGI-2“ zeigt: Zwischen menschlicher und künstlicher Intelligenz klaffen noch große Fähigkeitslücken. Erst wenn diese Lücken geschlossen sind, ist KI wirklich erreicht, meint die Arc Prize Foundation – und stößt mit einem Wettbewerb gezielt neue Forschung in diesem Bereich an. Entwickler:innen sind dazu aufgerufen, bei dem neuen Benchmark-Test eine Genauigkeit von 85 Prozent zu erreichen und dabei nur 0,42 Dollar pro Aufgabe auszugeben. Angesichts der aktuellen Ergebnisse steht den Entwickler:innen von KI-Modellen also eine Mammutaufgabe auf dem Weg zur tatsächlichen AGI bevor.
Lumas Dream Mashine AI verwandelt Fotos in beeindruckende Videos