Spielend KIs vergleichen: Minecraft-Benchmark ermöglicht interaktiven KI-Test

Wenn KI-Entwickler:innen neue Modelle auf den Markt bringen, werden sie meist in bekannten Benchmarks miteinander verglichen. Gerade für Laien ist es aber oftmals schwierig nachzuvollziehen, warum ein Modell von OpenAI deutlich besser sein soll, weil es in einem Benchmark fünf Punkte mehr als Googles Gemini erreicht hat. Das hat sich auch Adi Singh gedacht und einen leicht verständlichen und interaktiven Benchmark erstellt.
Ein KI-Benchmark in Minecraft: So nehmt ihr daran teil

Welche KI hat die bessere Ananas in Minecraft gebaut? (Screenshot: t3n)
Um den Zugang zu KI-Benchmarks zu vereinfachen, hat er MC-Bench ins Leben gerufen. Dabei handelt es sich um einen von Minecraft gestützten KI-Test. Gegenüber Techchrunch verriet der Highschool-Schüler: „Minecraft erlaubt es Menschen, den Fortschritt von KI-Entwicklung besser zu verfolgen. Die Menschen haben sich an Minecraft gewöhnt, an das Aussehen und das Gefühl des Spiels“.
Wenn ihr MC-Bench aufruft, werden direkt zwei zufällig ausgewählte KI-Modelle miteinander verglichen. Beide bekommen einen Prompt, um eine bestimmte Szene oder ein Objekt in Minecraft nachzubauen. Das reicht etwa von einer Ananas – die ihr oben im Bild seht – bis zu einer Nachstellung des Mauerfalls in Deutschland. Der Test erfolgt dabei blind. Die dahinterliegenden KI-Modelle werden erst später angezeigt.
Unter den Minecraft-Bauten wählt ihr das Werk aus, das euch am besten gefällt – oder ob die beiden Modelle gleich gut oder schlecht abgeschnitten haben. Am Ende wird euch dann noch gezeigt, welche KI für die Minecraft-Gebilde verantwortlich sind. Die Ergebnisse, die von der Community gewählt werden, landen am Ende in einer ausführlichen Bestenliste.
Zum Zeitpunkt dieser Meldung ist Claude 3.7 Sonnet der Spitzenreiter dieser Bestenliste. Das Modell von Anthropic konnte sich in 85 Prozent der Fälle gegen die Konkurrenz durchsetzen. Allerdings hat die KI auch deutlich weniger Kämpfe austragen müssen (736) als ein GPT 4.5 mit mehr als 1.300 Votes. Die OpenAI-KI landet mit knapp 73 Prozent Siegen auf Platz 2. Auf dem dritten Platz landet Deepseek R1 mit mehr als 1.400 Votes und einer Gewinnrate von etwa 67 Prozent. Am Ende der Tabelle findet sich das chinesische Modell Qwen-Turbo, das sich nur in knapp 13 Prozent der Fälle durchsetzen konnte.