Pokémon: Wird ein Spieleklassiker zum neuen Benchmark-Test für KI-Modelle?

Die Kontroverse um KI-Benchmarking hat jetzt auch die populäre Spielereihe Pokémon erreicht. Wie Techcrunch berichtet, soll Googles Gemini in dem Gaming-Klassiker besser abschneiden als Claude von Anthropic. Spiele-Benchmarks wie diese bieten interessante Einblicke – aber wie aussagekräftig sind sie wirklich hinsichtlich der Leistungsfähigkeit eines KI-Modells?
Spieleabend: KI schlägt Mensch
Dass KI-Modelle anhand bekannter Spiele getestet werden, ist seit Langem gängige Praxis. Schon 1997 besiegte das Modell Deep Blue von IBM den damaligen Schachweltmeister Garry Kasparov – ein historischer Meilenstein für die KI-Forschung. Im Jahr 2016 folgte dann ein weiterer Durchbruch, als Googles Alpha Go den südkoreanischen Go-Meister Lee Sedol schlug. Im Vergleich zu Schach gilt das Spiel nochmal als deutlich komplexer. Es gibt sogar KI-Modelle die auf Games wie Minecraft oder Dota 2 trainiert wurden. Da sich Spiele wie diese durch klare Regeln, messbare Ziele und meist auch durch eine strategische Tiefe auszeichnen, bieten sie für die KI-Forschung ideale Voraussetzungen, um die Leistung einzelner Modelle miteinander zu vergleichen.
Mit Pokémon rückt jetzt eine weitere ikonische Spieleserie in den Fokus um KI-Benchmarking. In den Klassikern für den Gameboy schlüpfen die Spieler:innen in die Rolle junger Trainer:innen, die sich in einer fiktiven Welt bewähren, Pokémon fangen, trainieren und gegen andere antreten lassen müssen. Die Kämpfe sind rundenbasiert und erfordern den strategischen Einsatz von Attacken, durch die sich die verschiedenen Pokémon auszeichnen. Vor allem die ersten Spiele der Reihe gelten mit über 31 Millionen verkauften Exemplaren als besonders erfolgreich.
Wie gut schlägt sich Gemini in Pokémon tatsächlich?
Vergangene Woche sorgte ein Beitrag auf X für Aufsehen: Darin wurde behauptet, dass Googles Gemini das KI-Modell Claude von Anthropic in der ursprünglichen Pokémon-Spieltrilogie übertrifft. Hintergrund war ein Twitch-Stream, in dem Gemini bereits die Stadt Lavandia erreichte, während Claude Ende Februar noch im frühen Spielabschnitt am Mondberg feststeckte.
Was im Beitrag allerdings unerwähnt blieb: Gemini hatte offenbar einen entscheidenden Vorteil. Wie Nutzer:innen auf Reddit anmerkten, nutzte der Entwickler hinter dem Gemini-Stream eine speziell angepasste Minimap. Diese hilft dem Modell, wichtige Spielelemente wie abschneidbare Bäume anhand sogenannter „Kacheln“ zu erkennen. Dadurch muss Gemini deutlich weniger Screenshots analysieren, um sinnvolle Entscheidungen im Spiel zu treffen.
Die Kontroverse um Benchmark-Tests geht weiter
Das Spiel Pokémon ist kein wissenschaftlich präziser Benchmark – trotzdem zeigt der aktuelle Vergleich zwischen Gemini und Claude, wie stark sich KI-Ergebnisse je nach technischer Umsetzung unterscheiden können. Solche Tests verdeutlichen, dass die Leistungsfähigkeit von KI-Modellen nicht nur vom Modell selbst, sondern auch vom Setup abhängt – und das gilt auch für etablierte Benchmarks im Bereich Codierung, Sprachverständnis oder Problemlösung.
Ein konkretes Beispiel dafür liefert Anthropic mit dem eigenen Modell Claude 3.7 Sonnet: Beim Benchmark-Test „SWE-bench Verified“, der die Programmierfähigkeit von KI bewertet, erreichte Claude einmal 62,3 Prozent und einmal 70,3 Prozent – je nachdem, ob ein von Anthropic entwickeltes Custom Scaffold zum Einsatz kam. Ähnlich wie im Fall der Minimap, die Gemini im Pokémon-Spiel weiterhalf, handelt es sich dabei um eine maßgeschneiderte Hilfsstruktur, die speziell dazu entwickelt wurde, um einem Sprachmodell beim Lösen einer Aufgabe zu helfen. Auch Meta optimierte kürzlich eine Variante seines Llama-4-Modells gezielt für gute Ergebnisse im „LM Arena“-Test. Solche Anpassungen zeigen: Benchmarks bleiben unvollkommen – und durch nicht standardisierte Implementierungen wird der direkte Vergleich zwischen Modellen zunehmend schwieriger.
Lumas Dream Mashine AI verwandelt Fotos in beeindruckende Videos