KI spielt Super Mario: Warum selbst die schlauesten LLMs scheitern

News

KI spielt Super Mario: Warum selbst die schlauesten LLMs scheitern

Wie misst man die Intelligenz von KI? Forschende nutzen dafür gerade den Videospielklassiker Super Mario Bros. Dabei zeigt sich: Auch künstliche Intelligenz tut sich mit dem Spiel gar nicht so leicht. Aber wie aussagekräftig ist so eine Benchmark?

Von Christian Weindl

09.03.2025, 11:50 Uhr • 2 Min.

KI spielt Super Mario: Warum selbst die schlauesten LLMs scheitern — Super Mario Bros.: Der NES-Klassiker soll jetzt dabei helfen, die Intelligenz von KI zu messen. (Foto: jhonny marcell oportus/Shutterstock)

Die Fähigkeiten von KI-Systemen zu bewerten, stellt eine echte Herausforderung dar und führt die Wissenschaft zu immer neuen Ansätzen. Ein Team der University of California San Diego hat jetzt den Klassiker Super Mario Bros. als Testumgebung gewählt. Woran sich Gamer:innen schon vor knapp 40 Jahren die Zähne ausgebissen haben, stellt auch einige KI-Modelle vor echte Schwierigkeiten.

Wie aussagekräftig solche Benchmarks sind, darüber streiten nicht nur die Expert:innen, es deutet auch auf ein größeres Problem hin: Die Messung künstlicher Intelligenz funktioniert gerade mehr schlecht als recht.

Super Mario Bros. als KI-Benchmark

Auf den NES-Spieleklassiker von 1985 losgelassen wurden die verschiedenen KI-Modelle von Hao AI Lab, einer Forschungsorganisation an der Universität von San Diego. Wie Techcrunch berichtet, bekamen Claude und Co. allerdings nicht das Original auf der Nintendo-Konsole vorgesetzt, sondern eine Emulator-Version.

Empfehlungen der Redaktion

News

OpenAI hat Sora offenbar mit Videospiel-Inhalten trainiert – das könnte ein Problem werden

Fundstück

Dieses Horror-Game lernt euch mithilfe von KI kennen – um euch zu töten

News

Komplett KI-generierte Games: Warum diese Zukunft laut Nvidia nicht weit entfernt ist

Ein eigens dafür entwickelter Gaming Agent machte es den verschiedenen KI-Modellen dann möglich, das Spiel zu steuern. Dabei erhielten sie grundlegende Anweisungen wie „Bei Hindernis oder Gegnern in der Nähe, nach links ausweichen“ sowie In-Game-Screenshots. Auf dieser Basis generierten die KI-Systeme Python-Code, um Mario zu steuern.

Leistungsunterschiede zwischen KI-Modellen

Der Test lieferte bemerkenswerte Ergebnisse: Anthropics Claude 3.7 erzielte die besten Leistungen, gefolgt von Claude 3.5. Im Gegensatz dazu hatten Googles Gemini 1.5 Pro und OpenAIs GPT-4o Schwierigkeiten, sich im Spiel zu behaupten.

Interessanterweise schnitten sogenannte „Reasoning“-Modelle, die Probleme Schritt für Schritt analysieren, schlechter ab als ihre „Non-Reasoning“-Gegenstücke. Ein Hauptgrund dafür ist die längere Entscheidungszeit der „Reasoning“-Modelle, die gerade beim Echtzeit-Spielen von Jump n Runs wie Super Mario Bros. nachteilig ist, wo es darauf ankommt, innerhalb von Sekunden die richtige Entscheidung zwischen Laufen, Springen und Ducken zu treffen.

Der Test misst also eher die „Reflexe“ der KI und damit maximal einen Teilaspekt „echter“ Intelligenz.

Spiele als Testumgebung für KI

Die Nutzung von Videospielen zur Bewertung von KI ist nicht neu. Schon 2009 wurde ein Wettbewerb ins Leben gerufen, bei dem KIs den Nintendo-Klassiker meistern sollten. Solche Spiele bieten eine kontrollierte Umgebung mit klaren Regeln, die es ermöglichen, die Lern- und Anpassungsfähigkeit von KI-Systemen zu testen.

Allerdings gibt es auch diverse Expert:innen, die die Aussagekraft solcher Tests hinterfragen. Die Kritik bezieht sich hauptsächlich darauf, dass die Spiele oft abstrakt und vereinfacht sind und somit nicht unbedingt die Komplexität der realen Welt widerspiegeln.

KI befindet sich möglicherweise in einer Evaluationskrise

Das Problem mit Benchmarks geht aber über die eingeschränkte Aussagekraft eines Gaming-Tests hinaus. Tatsächlich scheint es derzeit unglaublich schwierig, bei der Vielzahl an verschiedenen Tests und Benchmarks irgendeine klare Aussage über den tatsächlichen Intelligenz-Stand von KI zu treffen.

Selbst OpenAI-Mitbegründer Andrej Karpathy beklagte diesen Zustand kürzlich in einem Post auf X. Er spricht dabei sogar von einer „Evaluationskrise“ und gibt zu: „Ich weiß gerade nicht wirklich, wie intelligent diese Systeme sind.“

Diese SNES-Booklets solltet ihr gesehen haben

Bildergalerie ansehen

Mehr zu diesem Thema

MIT Technology Review Künstliche Intelligenz

Verpasse keine News! 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Brands

Themen

Magazine

Skills

KI spielt Super Mario: Warum selbst die schlauesten LLMs scheitern

Super Mario Bros. als KI-Benchmark

Leistungsunterschiede zwischen KI-Modellen

Spiele als Testumgebung für KI

KI befindet sich möglicherweise in einer Evaluationskrise

Diese SNES-Booklets solltet ihr gesehen haben