Musks KI Grok 4 ist nicht die Nummer 1 – aber das eigentliche Problem sind die Ranglisten selbst

Grok 4 kann sich nicht gegen Google und OpenAI durchsetzen. (Bild: rafapress/Shutterstock)
Multimilliardär Elon Musk, unter anderem Chef des KI-Entwicklers xAI, ist für seine vollmundigen Ankündigungen bekannt. Sein neuestes KI-Sprachmodell, Grok 4, sei nichts Geringeres als die „intelligenteste KI der Welt“, wie das Unternehmen in seiner offiziellen Ankündigung schreibt. Eine prominente Rangliste zeichnet nun allerdings ein differenzierteres Bild und wirft ein Schlaglicht auf ein grundlegendes Problem der gesamten KI-Branche.
Auf dem populären „Chatbot Arena Leaderboard“, das von der University of California in Berkeley betrieben wird, landet Grok 4 nämlich „nur“ auf dem dritten Platz. Nutzer:innen wählen in der Arena zwischen zwei anonymisierten Chatbots den subjektiv besseren – das Ergebnis fließt in die Rangliste ein. Aus Tausenden dieser sogenannten „Battles“ ergibt sich eine Rangfolge, berechnet über Elo-Wertungen aus dem Schachsystem.
Vor dem Modell von xAI rangieren aktuell Konkurrenzprodukte von Google und OpenAI. Das allein wäre bereits eine Meldung wert, doch die eigentliche Geschichte liegt eine Ebene tiefer.
Die Glaubwürdigkeit der Benchmarks steht auf dem Spiel
Die Diskussion um die Platzierung von Grok 4 fällt zusammen mit einer wachsenden Kritik an der Aussagekraft solcher Ranglisten. Eine viel beachtete wissenschaftliche Arbeit mit dem Titel „The Leaderboard Illusion“, die unter der Führung des KI-Unternehmens Cohere aus dem kanadischen Toronto entstand, attestiert der Chatbot-Arena „systematische Probleme“. Die Autor:innen des Papers kritisieren ein „verzerrtes Spielfeld“.
Konkret bemängeln die Forscher:innen zwei wesentliche Punkte. Zum einen gäbe es unveröffentlichte, private Testphasen, die es bestimmten Anbietern erlaubten, zahlreiche Modellvarianten im Geheimen zu testen und nur die Version mit dem besten Ergebnis für die öffentliche Wertung einzureichen. Als extremes Beispiel führen sie an, dass Meta im Vorfeld der Veröffentlichung von Llama-4 insgesamt 27 private Varianten getestet haben soll.
Wer mehr Daten hat, gewinnt leichter
Zum anderen prangern die Expert:innen einen asymmetrischen Datenzugang an. Proprietäre, also geschlossene Modelle von großen Anbietern wie Google und OpenAI würden in den Tests (sogenannten „Battles“) deutlich häufiger von Nutzer:innen bewertet als Open-Weight-Alternativen. Dieser ungleiche Datenzugang verschaffe den großen Playern einen signifikanten Vorteil, da sie ihre Modelle besser auf die spezifische Dynamik der Arena optimieren könnten.
Der daraus resultierende Effekt wird als „Overfitting“ bezeichnet: Die Modelle werden nicht zwingend allgemein besser, sondern vor allem besser darin, in diesem einen, spezifischen Benchmark gut abzuschneiden. Wie das Magazin Futurism berichtet, hat diese Debatte durch den Fall von Grok 4 neuen Auftrieb erhalten.
Lokale KI: Mit diesen 5 Tools kein Problem
xAI setzt auf eigene Maßstäbe
Das Team von xAI scheint diese Problematik durchaus zu kennen und lenkt in seiner Kommunikation den Fokus auf andere Bewertungsmaßstäbe. In der Ankündigung von Grok 4 wird prominent der Test „Humanity’s Last Exam“ hervorgehoben, eine Sammlung von Prüfungen auf Expertenniveau. In diesem spezifischen Benchmark, so xAI, übertreffe ihr Modell die Konkurrenz.
Am Ende zeigt der Fall Grok 4 vor allem eines: Der Wettlauf um die leistungsfähigste KI ist auch ein Kampf um die Deutungshoheit und die richtigen Maßstäbe. Während öffentliche Ranglisten wie die Chatbot Arena für eine schnelle Orientierung sorgen, erfordert eine ernsthafte Bewertung von KI-Modellen einen kritischen Blick auf die Methodik hinter den Zahlen. Die Frage, welche KI nun wirklich die „intelligenteste“ ist, lässt sich mit einer einzelnen Platzierung auf einem Leaderboard offensichtlich nicht beantworten.