Anzeige
Anzeige
News

KI spielt Super Mario: Warum selbst die schlauesten LLMs scheitern

Wie misst man die Intelligenz von KI? Forschende nutzen dafür gerade den Videospielklassiker Super Mario Bros. Dabei zeigt sich: Auch künstliche Intelligenz tut sich mit dem Spiel gar nicht so leicht. Aber wie aussagekräftig ist so eine Benchmark?

Von Christian Weindl
2 Min.
Artikel merken
Anzeige
Anzeige

Super Mario Bros.: Der NES-Klassiker soll jetzt dabei helfen, die Intelligenz von KI zu messen. (Foto: jhonny marcell oportus/Shutterstock)

Die Fähigkeiten von KI-Systemen zu bewerten, stellt eine echte Herausforderung dar und führt die Wissenschaft zu immer neuen Ansätzen. Ein Team der University of California San Diego hat jetzt den Klassiker Super Mario Bros. als Testumgebung gewählt. Woran sich Gamer:innen schon vor knapp 40 Jahren die Zähne ausgebissen haben, stellt auch einige KI-Modelle vor echte Schwierigkeiten.

Anzeige
Anzeige

Wie aussagekräftig solche Benchmarks sind, darüber streiten nicht nur die Expert:innen, es deutet auch auf ein größeres Problem hin: Die Messung künstlicher Intelligenz funktioniert gerade mehr schlecht als recht.

Super Mario Bros. als KI-Benchmark

Auf den NES-Spieleklassiker von 1985 losgelassen wurden die verschiedenen KI-Modelle von Hao AI Lab, einer Forschungsorganisation an der Universität von San Diego. Wie Techcrunch berichtet, bekamen Claude und Co. allerdings nicht das Original auf der Nintendo-Konsole vorgesetzt, sondern eine Emulator-Version.

Anzeige
Anzeige

Ein eigens dafür entwickelter Gaming Agent machte es den verschiedenen KI-Modellen dann möglich, das Spiel zu steuern. Dabei erhielten sie grundlegende Anweisungen wie „Bei Hindernis oder Gegnern in der Nähe, nach links ausweichen“ sowie In-Game-Screenshots. Auf dieser Basis generierten die KI-Systeme Python-Code, um Mario zu steuern.

Leistungsunterschiede zwischen KI-Modellen

Der Test lieferte bemerkenswerte Ergebnisse: Anthropics Claude 3.7 erzielte die besten Leistungen, gefolgt von Claude 3.5. Im Gegensatz dazu hatten Googles Gemini 1.5 Pro und OpenAIs GPT-4o Schwierigkeiten, sich im Spiel zu behaupten.

Anzeige
Anzeige

Interessanterweise schnitten sogenannte „Reasoning“-Modelle, die Probleme Schritt für Schritt analysieren, schlechter ab als ihre „Non-Reasoning“-Gegenstücke. Ein Hauptgrund dafür ist die längere Entscheidungszeit der „Reasoning“-Modelle, die gerade beim Echtzeit-Spielen von Jump n Runs wie Super Mario Bros. nachteilig ist, wo es darauf ankommt, innerhalb von Sekunden die richtige Entscheidung zwischen Laufen, Springen und Ducken zu treffen.

Der Test misst also eher die „Reflexe“ der KI und damit maximal einen Teilaspekt „echter“ Intelligenz.

Anzeige
Anzeige

Spiele als Testumgebung für KI

Die Nutzung von Videospielen zur Bewertung von KI ist nicht neu. Schon 2009 wurde ein Wettbewerb ins Leben gerufen, bei dem KIs den Nintendo-Klassiker meistern sollten. Solche Spiele bieten eine kontrollierte Umgebung mit klaren Regeln, die es ermöglichen, die Lern- und Anpassungsfähigkeit von KI-Systemen zu testen.

Allerdings gibt es auch diverse Expert:innen, die die Aussagekraft solcher Tests hinterfragen. Die Kritik bezieht sich hauptsächlich darauf, dass die Spiele oft abstrakt und vereinfacht sind und somit nicht unbedingt die Komplexität der realen Welt widerspiegeln.

KI befindet sich möglicherweise in einer Evaluationskrise

Das Problem mit Benchmarks geht aber über die eingeschränkte Aussagekraft eines Gaming-Tests hinaus. Tatsächlich scheint es derzeit unglaublich schwierig, bei der Vielzahl an verschiedenen Tests und Benchmarks irgendeine klare Aussage über den tatsächlichen Intelligenz-Stand von KI zu treffen.

Anzeige
Anzeige

Selbst OpenAI-Mitbegründer Andrej Karpathy beklagte diesen Zustand kürzlich in einem Post auf X. Er spricht dabei sogar von einer „Evaluationskrise“ und gibt zu: „Ich weiß gerade nicht wirklich, wie intelligent diese Systeme sind.“

Diese SNES-Booklets solltet ihr gesehen haben

Diese SNES-Booklets solltet ihr gesehen haben Quelle: Shutterstock/Helisique

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige