KI spielt Super Mario: Warum selbst die schlauesten LLMs scheitern

Super Mario Bros.: Der NES-Klassiker soll jetzt dabei helfen, die Intelligenz von KI zu messen. (Foto: jhonny marcell oportus/Shutterstock)
Die Fähigkeiten von KI-Systemen zu bewerten, stellt eine echte Herausforderung dar und führt die Wissenschaft zu immer neuen Ansätzen. Ein Team der University of California San Diego hat jetzt den Klassiker Super Mario Bros. als Testumgebung gewählt. Woran sich Gamer:innen schon vor knapp 40 Jahren die Zähne ausgebissen haben, stellt auch einige KI-Modelle vor echte Schwierigkeiten.
Wie aussagekräftig solche Benchmarks sind, darüber streiten nicht nur die Expert:innen, es deutet auch auf ein größeres Problem hin: Die Messung künstlicher Intelligenz funktioniert gerade mehr schlecht als recht.
Super Mario Bros. als KI-Benchmark
Auf den NES-Spieleklassiker von 1985 losgelassen wurden die verschiedenen KI-Modelle von Hao AI Lab, einer Forschungsorganisation an der Universität von San Diego. Wie Techcrunch berichtet, bekamen Claude und Co. allerdings nicht das Original auf der Nintendo-Konsole vorgesetzt, sondern eine Emulator-Version.
Ein eigens dafür entwickelter Gaming Agent machte es den verschiedenen KI-Modellen dann möglich, das Spiel zu steuern. Dabei erhielten sie grundlegende Anweisungen wie „Bei Hindernis oder Gegnern in der Nähe, nach links ausweichen“ sowie In-Game-Screenshots. Auf dieser Basis generierten die KI-Systeme Python-Code, um Mario zu steuern.
Leistungsunterschiede zwischen KI-Modellen
Der Test lieferte bemerkenswerte Ergebnisse: Anthropics Claude 3.7 erzielte die besten Leistungen, gefolgt von Claude 3.5. Im Gegensatz dazu hatten Googles Gemini 1.5 Pro und OpenAIs GPT-4o Schwierigkeiten, sich im Spiel zu behaupten.
Interessanterweise schnitten sogenannte „Reasoning“-Modelle, die Probleme Schritt für Schritt analysieren, schlechter ab als ihre „Non-Reasoning“-Gegenstücke. Ein Hauptgrund dafür ist die längere Entscheidungszeit der „Reasoning“-Modelle, die gerade beim Echtzeit-Spielen von Jump n Runs wie Super Mario Bros. nachteilig ist, wo es darauf ankommt, innerhalb von Sekunden die richtige Entscheidung zwischen Laufen, Springen und Ducken zu treffen.
Der Test misst also eher die „Reflexe“ der KI und damit maximal einen Teilaspekt „echter“ Intelligenz.
Spiele als Testumgebung für KI
Die Nutzung von Videospielen zur Bewertung von KI ist nicht neu. Schon 2009 wurde ein Wettbewerb ins Leben gerufen, bei dem KIs den Nintendo-Klassiker meistern sollten. Solche Spiele bieten eine kontrollierte Umgebung mit klaren Regeln, die es ermöglichen, die Lern- und Anpassungsfähigkeit von KI-Systemen zu testen.
Allerdings gibt es auch diverse Expert:innen, die die Aussagekraft solcher Tests hinterfragen. Die Kritik bezieht sich hauptsächlich darauf, dass die Spiele oft abstrakt und vereinfacht sind und somit nicht unbedingt die Komplexität der realen Welt widerspiegeln.
KI befindet sich möglicherweise in einer Evaluationskrise
Das Problem mit Benchmarks geht aber über die eingeschränkte Aussagekraft eines Gaming-Tests hinaus. Tatsächlich scheint es derzeit unglaublich schwierig, bei der Vielzahl an verschiedenen Tests und Benchmarks irgendeine klare Aussage über den tatsächlichen Intelligenz-Stand von KI zu treffen.
Selbst OpenAI-Mitbegründer Andrej Karpathy beklagte diesen Zustand kürzlich in einem Post auf X. Er spricht dabei sogar von einer „Evaluationskrise“ und gibt zu: „Ich weiß gerade nicht wirklich, wie intelligent diese Systeme sind.“
Diese SNES-Booklets solltet ihr gesehen haben