Anzeige
Anzeige
News
Verpasse keine News mehr!

Pokémon: Wird ein Spieleklassiker zum neuen Benchmark-Test für KI-Modelle?

Googles Gemini schlägt Claude von Anthropic im ikonischen Spiel Pokémon – zumindest auf den ersten Blick. Ein unfairer Vorteil heizt die Diskussionen um die Aussagekraft von KI-Benchmarks weiter an.

Von Noëlle Bölling
3 Min.
Artikel merken
Anzeige
Anzeige
Wie gut schlägt sich Gemini im Spieleklassiker wirklich? (Foto: Shutterstock / Domenico Fornas)

Die Kontroverse um KI-Benchmarking hat jetzt auch die populäre Spielereihe Pokémon erreicht. Wie Techcrunch berichtet, soll Googles Gemini in dem Gaming-Klassiker besser abschneiden als Claude von Anthropic. Spiele-Benchmarks wie diese bieten interessante Einblicke – aber wie aussagekräftig sind sie wirklich hinsichtlich der Leistungsfähigkeit eines KI-Modells?

Anzeige
Anzeige

Spieleabend: KI schlägt Mensch

Dass KI-Modelle anhand bekannter Spiele getestet werden, ist seit Langem gängige Praxis. Schon 1997 besiegte das Modell Deep Blue von IBM den damaligen Schachweltmeister Garry Kasparov – ein historischer Meilenstein für die KI-Forschung. Im Jahr 2016 folgte dann ein weiterer Durchbruch, als Googles Alpha Go den südkoreanischen Go-Meister Lee Sedol schlug. Im Vergleich zu Schach gilt das Spiel nochmal als deutlich komplexer. Es gibt sogar KI-Modelle die auf Games wie Minecraft oder Dota 2 trainiert wurden. Da sich Spiele wie diese durch klare Regeln, messbare Ziele und meist auch durch eine strategische Tiefe auszeichnen, bieten sie für die KI-Forschung ideale Voraussetzungen, um die Leistung einzelner Modelle miteinander zu vergleichen.

Mit Pokémon rückt jetzt eine weitere ikonische Spieleserie in den Fokus um KI-Benchmarking. In den Klassikern für den Gameboy schlüpfen die Spieler:innen in die Rolle junger Trainer:innen, die sich in einer fiktiven Welt bewähren, Pokémon fangen, trainieren und gegen andere antreten lassen müssen. Die Kämpfe sind rundenbasiert und erfordern den strategischen Einsatz von Attacken, durch die sich die verschiedenen Pokémon auszeichnen. Vor allem die ersten Spiele der Reihe gelten mit über 31 Millionen verkauften Exemplaren als besonders erfolgreich.

Anzeige
Anzeige

Wie gut schlägt sich Gemini in Pokémon tatsächlich?

Vergangene Woche sorgte ein Beitrag auf X für Aufsehen: Darin wurde behauptet, dass Googles Gemini das KI-Modell Claude von Anthropic in der ursprünglichen Pokémon-Spieltrilogie übertrifft. Hintergrund war ein Twitch-Stream, in dem Gemini bereits die Stadt Lavandia erreichte, während Claude Ende Februar noch im frühen Spielabschnitt am Mondberg feststeckte.

Anzeige
Anzeige

Was im Beitrag allerdings unerwähnt blieb: Gemini hatte offenbar einen entscheidenden Vorteil. Wie Nutzer:innen auf Reddit anmerkten, nutzte der Entwickler hinter dem Gemini-Stream eine speziell angepasste Minimap. Diese hilft dem Modell, wichtige Spielelemente wie abschneidbare Bäume anhand sogenannter „Kacheln“ zu erkennen. Dadurch muss Gemini deutlich weniger Screenshots analysieren, um sinnvolle Entscheidungen im Spiel zu treffen.

Die Kontroverse um Benchmark-Tests geht weiter

Das Spiel Pokémon ist kein wissenschaftlich präziser Benchmark – trotzdem zeigt der aktuelle Vergleich zwischen Gemini und Claude, wie stark sich KI-Ergebnisse je nach technischer Umsetzung unterscheiden können. Solche Tests verdeutlichen, dass die Leistungsfähigkeit von KI-Modellen nicht nur vom Modell selbst, sondern auch vom Setup abhängt – und das gilt auch für etablierte Benchmarks im Bereich Codierung, Sprachverständnis oder Problemlösung.

Anzeige
Anzeige

Ein konkretes Beispiel dafür liefert Anthropic mit dem eigenen Modell Claude 3.7 Sonnet: Beim Benchmark-Test „SWE-bench Verified“, der die Programmierfähigkeit von KI bewertet, erreichte Claude einmal 62,3 Prozent und einmal 70,3 Prozent – je nachdem, ob ein von Anthropic entwickeltes Custom Scaffold zum Einsatz kam. Ähnlich wie im Fall der Minimap, die Gemini im Pokémon-Spiel weiterhalf, handelt es sich dabei um eine maßgeschneiderte Hilfsstruktur, die speziell dazu entwickelt wurde, um einem Sprachmodell beim Lösen einer Aufgabe zu helfen. Auch Meta optimierte kürzlich eine Variante seines Llama-4-Modells gezielt für gute Ergebnisse im „LM Arena“-Test. Solche Anpassungen zeigen: Benchmarks bleiben unvollkommen – und durch nicht standardisierte Implementierungen wird der direkte Vergleich zwischen Modellen zunehmend schwieriger.

Lumas Dream Mashine AI verwandelt Fotos in beeindruckende Videos

Lumas Dream Machine AI verwandelt Fotos in beeindruckende Videos Quelle:

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige