Ananas statt Algorithmen: So testet ein Minecraft-Benchmark die Kreativität von KIs

Fundstück

Ein neuer KI-Benchmark soll nicht nur dabei helfen, künstliche Intelligenzen gegeneinander antreten zu lassen. Der Benchmark in Minecraft soll es auch Laien vereinfachen, die Modelle miteinander zu vergleichen.

Von Marvin Fuhrmann

04.04.2025, 10:55 Uhr • 2 Min.

Ananas statt Algorithmen: So testet ein Minecraft-Benchmark die Kreativität von KIs — Kann Minecraft dabei helfen, KI-Benchmarks zu erstellen? (Bild: Shutterstock/Rokas Tenys)

Wenn KI-Entwickler:innen neue Modelle auf den Markt bringen, werden sie meist in bekannten Benchmarks miteinander verglichen. Gerade für Laien ist es aber oftmals schwierig nachzuvollziehen, warum ein Modell von OpenAI deutlich besser sein soll, weil es in einem Benchmark fünf Punkte mehr als Googles Gemini erreicht hat. Das hat sich auch Adi Singh gedacht und einen leicht verständlichen und interaktiven Benchmark erstellt.

Ein KI-Benchmark in Minecraft: So nehmt ihr daran teil

Welche KI hat die bessere Ananas in Minecraft gebaut? (Screenshot: t3n)

Um den Zugang zu KI-Benchmarks zu vereinfachen, hat er MC-Bench ins Leben gerufen. Dabei handelt es sich um einen von Minecraft gestützten KI-Test. Gegenüber Techchrunch verriet der Highschool-Schüler: „Minecraft erlaubt es Menschen, den Fortschritt von KI-Entwicklung besser zu verfolgen. Die Menschen haben sich an Minecraft gewöhnt, an das Aussehen und das Gefühl des Spiels“.

Wenn ihr MC-Bench aufruft, werden direkt zwei zufällig ausgewählte KI-Modelle miteinander verglichen. Beide bekommen einen Prompt, um eine bestimmte Szene oder ein Objekt in Minecraft nachzubauen. Das reicht etwa von einer Ananas – die ihr oben im Bild seht – bis zu einer Nachstellung des Mauerfalls in Deutschland. Der Test erfolgt dabei blind. Die dahinterliegenden KI-Modelle werden erst später angezeigt.

Empfehlungen der Redaktion

MIT Technology Review News

Wir sind nicht alle gleich: Wie neue KI-Benchmarks Sprachmodellen bei Unterschieden helfen sollen

News

KI spielt Super Mario: Warum selbst die schlauesten LLMs scheitern

News

Günstiger und besser als ChatGPT und Deepseek? Baidu stellt zwei neue KI-Modelle vor

Unter den Minecraft-Bauten wählt ihr das Werk aus, das euch am besten gefällt – oder ob die beiden Modelle gleich gut oder schlecht abgeschnitten haben. Am Ende wird euch dann noch gezeigt, welche KI für die Minecraft-Gebilde verantwortlich sind. Die Ergebnisse, die von der Community gewählt werden, landen am Ende in einer ausführlichen Bestenliste.

Zum Zeitpunkt dieser Meldung ist Claude 3.7 Sonnet der Spitzenreiter dieser Bestenliste. Das Modell von Anthropic konnte sich in 85 Prozent der Fälle gegen die Konkurrenz durchsetzen. Allerdings hat die KI auch deutlich weniger Kämpfe austragen müssen (736) als ein GPT 4.5 mit mehr als 1.300 Votes. Die OpenAI-KI landet mit knapp 73 Prozent Siegen auf Platz 2. Auf dem dritten Platz landet Deepseek R1 mit mehr als 1.400 Votes und einer Gewinnrate von etwa 67 Prozent. Am Ende der Tabelle findet sich das chinesische Modell Qwen-Turbo, das sich nur in knapp 13 Prozent der Fälle durchsetzen konnte.