Anzeige
Anzeige
Anzeige
Anzeige
News
Verpasse keine News mehr!

Musks KI Grok 4 ist nicht die Nummer 1 – aber das eigentliche Problem sind die Ranglisten selbst

Ein Superlativ, eine Rangliste und ein Ergebnis, das Fragen aufwirft. Die Geschichte hinter dem KI-Modell Grok 4 ist mehr als nur ein Wettlauf um den ersten Platz.

2 Min.
Artikel merken
Anzeige
Anzeige

Grok 4 kann sich nicht gegen Google und OpenAI durchsetzen. (Bild: rafapress/Shutterstock)

Multimilliardär Elon Musk, unter anderem Chef des KI-Entwicklers xAI, ist für seine vollmundigen Ankündigungen bekannt. Sein neuestes KI-Sprachmodell, Grok 4, sei nichts Geringeres als die „intelligenteste KI der Welt“, wie das Unternehmen in seiner offiziellen Ankündigung schreibt. Eine prominente Rangliste zeichnet nun allerdings ein differenzierteres Bild und wirft ein Schlaglicht auf ein grundlegendes Problem der gesamten KI-Branche.

Anzeige
Anzeige

Auf dem populären „Chatbot Arena Leaderboard“, das von der University of California in Berkeley betrieben wird, landet Grok 4 nämlich „nur“ auf dem dritten Platz. Nutzer:innen wählen in der Arena zwischen zwei anonymisierten Chatbots den subjektiv besseren – das Ergebnis fließt in die Rangliste ein. Aus Tausenden dieser sogenannten „Battles“ ergibt sich eine Rangfolge, berechnet über Elo-Wertungen aus dem Schachsystem.

Vor dem Modell von xAI rangieren aktuell Konkurrenzprodukte von Google und OpenAI. Das allein wäre bereits eine Meldung wert, doch die eigentliche Geschichte liegt eine Ebene tiefer.

Anzeige
Anzeige

Die Glaubwürdigkeit der Benchmarks steht auf dem Spiel

Die Diskussion um die Platzierung von Grok 4 fällt zusammen mit einer wachsenden Kritik an der Aussagekraft solcher Ranglisten. Eine viel beachtete wissenschaftliche Arbeit mit dem Titel „The Leaderboard Illusion“, die unter der Führung des KI-Unternehmens Cohere aus dem kanadischen Toronto entstand, attestiert der Chatbot-Arena „systematische Probleme“. Die Autor:innen des Papers kritisieren ein „verzerrtes Spielfeld“.

Konkret bemängeln die Forscher:innen zwei wesentliche Punkte. Zum einen gäbe es unveröffentlichte, private Testphasen, die es bestimmten Anbietern erlaubten, zahlreiche Modellvarianten im Geheimen zu testen und nur die Version mit dem besten Ergebnis für die öffentliche Wertung einzureichen. Als extremes Beispiel führen sie an, dass Meta im Vorfeld der Veröffentlichung von Llama-4 insgesamt 27 private Varianten getestet haben soll.

Wer mehr Daten hat, gewinnt leichter

Zum anderen prangern die Expert:innen einen asymmetrischen Datenzugang an. Proprietäre, also geschlossene Modelle von großen Anbietern wie Google und OpenAI würden in den Tests (sogenannten „Battles“) deutlich häufiger von Nutzer:innen bewertet als Open-Weight-Alternativen. Dieser ungleiche Datenzugang verschaffe den großen Playern einen signifikanten Vorteil, da sie ihre Modelle besser auf die spezifische Dynamik der Arena optimieren könnten.

Der daraus resultierende Effekt wird als „Overfitting“ bezeichnet: Die Modelle werden nicht zwingend allgemein besser, sondern vor allem besser darin, in diesem einen, spezifischen Benchmark gut abzuschneiden. Wie das Magazin Futurism berichtet, hat diese Debatte durch den Fall von Grok 4 neuen Auftrieb erhalten.

Anzeige
Anzeige

Lokale KI: Mit diesen 5 Tools kein Problem

Lokale KI: Mit diesen 6 Tools kein Problem Quelle: Midjourny / t3n

xAI setzt auf eigene Maßstäbe

Das Team von xAI scheint diese Problematik durchaus zu kennen und lenkt in seiner Kommunikation den Fokus auf andere Bewertungsmaßstäbe. In der Ankündigung von Grok 4 wird prominent der Test „Humanity’s Last Exam“ hervorgehoben, eine Sammlung von Prüfungen auf Expertenniveau. In diesem spezifischen Benchmark, so xAI, übertreffe ihr Modell die Konkurrenz.

Am Ende zeigt der Fall Grok 4 vor allem eines: Der Wettlauf um die leistungsfähigste KI ist auch ein Kampf um die Deutungshoheit und die richtigen Maßstäbe. Während öffentliche Ranglisten wie die Chatbot Arena für eine schnelle Orientierung sorgen, erfordert eine ernsthafte Bewertung von KI-Modellen einen kritischen Blick auf die Methodik hinter den Zahlen. Die Frage, welche KI nun wirklich die „intelligenteste“ ist, lässt sich mit einer einzelnen Platzierung auf einem Leaderboard offensichtlich nicht beantworten.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren