Anzeige
Anzeige
News
Verpasse keine News mehr!

Künstliche Intelligenz auf dem Prüfstand: AGI-Test deckt Schwächen aktueller KI-Modelle auf

Wie nah sind Unternehmen wie OpenAI einer AGI tatsächlich? Ein neuer Benchmark-Test zeigt: KI-Modelle haben noch immer große Intelligenzlücken und Menschen sind ihnen im Vergleich deutlich überlegen.

Von Noëlle Bölling
3 Min.
Artikel merken
Anzeige
Anzeige
Wie nah ist AGI wirklich? (Bild: Wangbar/Shutterstock)

AGI oder nicht AGI? Um diese Frage zu beantworten, hat die gemeinnützige Arc Prize Foundation, die vom KI-Forscher François Chollet mitgegründet wurde, einen neuen, besonders anspruchsvollen Benchmark-Test zur Messung allgemeiner künstlicher Intelligenz (AGI) entwickelt. Wie Techcrunch berichtet, haben die Ergebnisse ein ernüchterndes Bild gezeichnet, denn die meisten KI-Modelle zeigten sich mit den Aufgaben des neuen „Arc-AGI-2“-Tests deutlich überfordert.

Anzeige
Anzeige

KI-Modelle versagen im neuen Benchmark-Test

Unternehmen hinter fortschrittlichen KI-Modellen wie o1-pro oder R1 betonen häufig die angeblich hohe Intelligenz ihrer Systeme. Auch OpenAI-Chef Sam Altman sowie Mitarbeiter:innen des Unternehmens haben wiederholt erklärt, die Schwelle zur AGI sei erreicht – nur um diese Aussagen später teilweise zu relativieren. Wie leistungsfähig aktuelle Modelle tatsächlich sind, soll jetzt der neue Benchmark-Test der Arc Prize Foundation prüfen.

„Arc-AGI-2“ besteht aus einer Reihe puzzleartiger Aufgaben, bei denen eine KI visuelle Muster in farbigen Quadratrastern erkennen und das korrekte Antwortgitter generieren muss. Die Tests sind so gestaltet, dass die Modelle mit unbekannten Herausforderungen konfrontiert werden – sie müssen sich an neue Probleme anpassen, die nicht Teil ihres Trainings waren. Ziel ist es, zu untersuchen, ob ein KI-Modell in der Lage ist, außerhalb seiner Trainingsdaten neue Fähigkeiten zu entwickeln.

Anzeige
Anzeige

Die Ergebnisse fallen allerdings ernüchternd aus: Reasoning-Modelle wie o1-pro von OpenAI und R1 von Deepseek erzielten im „Arc-AGI-2“-Test lediglich zwischen einem und 1,3 Prozent. Andere leistungsfähige Modelle wie GPT-4.5, Claude 3.7 Sonnet und Gemini 2.0 Flash – die nicht speziell für logisches Denken ausgelegt sind – lagen bei rund einem Prozent. Zum Vergleich: Die Arc Prize Foundation ließ 400 Menschen dieselben Puzzle-Aufgaben bearbeiten. Im Durchschnitt beantworteten sie 60 Prozent der Fragen korrekt – und lagen damit deutlich vor den getesteten KI-Systemen.

Anzeige
Anzeige

KI-Expert:innen beklagen Mangel an aussagekräftigen Tests

Der Vorgängertest „Arc-AGI-1“ wird seit 2019 eingesetzt, um den Fortschritt auf dem Weg zu AGI zu bewerten. Laut einem Blog-Beitrag der Arc Prize Foundation war er bis Ende 2024 der einzige Benchmark-Test, der präzise erfassen konnte, wann ein KI-Modell über reines Auswendiglernen hinausgeht. OpenAI nutzte den „Arc-AGI-1“-Test beispielsweise, um diesen Fortschritt mit seinem o3-System zu demonstrieren, das auf Deep Learning basierende LLMs mit logischen Synthesemaschinen kombiniert.

Zuletzt wurde allerdings vermehrt Kritik laut: Expert:innen bemängelten, dass es an aussagekräftigen Tests fehle, um zentrale Eigenschaften von AGI zuverlässig zu messen – insbesondere Aspekte wie Effizienz oder Kreativität. Auch François Chollet von der Arc Prize Foundation räumte ein, dass der bisherige „Arc-AGI-1“-Test Schwächen aufwies. Ein zentrales Problem: KI-Modelle konnten die Aufgaben bislang allein durch hohe Rechenleistung lösen, ohne tatsächlich generalisierende Fähigkeiten zu zeigen.

Anzeige
Anzeige

Um diese Schwäche auszubessern, wurde im neuen „Arc-AGI-2“-Benchmark-Test ein zusätzlicher Bewertungsfaktor eingeführt – nämlich die Effizienz. Gerade in diesem Bereich offenbaren sich erhebliche Schwächen: Während das OpenAI-Modell o3-low im „Arc-AGI-1“-Test mit einem Rechenaufwand von rund 200 US-Dollar pro Aufgabe mehr als 75 Prozent korrekt löste, erreicht es im neuen „Arc-AGI-2“-Benchmark-Test mit derselben Rechenleistung lediglich vier Prozent.

Wettbewerb ruft zu Innovationen auf dem Weg zu AGI auf

Der neue Test „Arc-AGI-2“ zeigt: Zwischen menschlicher und künstlicher Intelligenz klaffen noch große Fähigkeitslücken. Erst wenn diese Lücken geschlossen sind, ist KI wirklich erreicht, meint die Arc Prize Foundation – und stößt mit einem Wettbewerb gezielt neue Forschung in diesem Bereich an. Entwickler:innen sind dazu aufgerufen, bei dem neuen Benchmark-Test eine Genauigkeit von 85 Prozent zu erreichen und dabei nur 0,42 Dollar pro Aufgabe auszugeben. Angesichts der aktuellen Ergebnisse steht den Entwickler:innen von KI-Modellen also eine Mammutaufgabe auf dem Weg zur tatsächlichen AGI bevor.

Lumas Dream Mashine AI verwandelt Fotos in beeindruckende Videos

Lumas Dream Machine AI verwandelt Fotos in beeindruckende Videos Quelle:

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige