Anzeige
Anzeige
Fundstück

Spielend KIs vergleichen: Minecraft-Benchmark ermöglicht interaktiven KI-Test

Ein neuer KI-Benchmark soll nicht nur dabei helfen, künstliche Intelligenzen gegeneinander antreten zu lassen. Der Benchmark in Minecraft soll es auch Laien vereinfachen, die Modelle miteinander zu vergleichen.

2 Min.
Artikel merken
Anzeige
Anzeige
Kann Minecraft dabei helfen, KI-Benchmarks zu erstellen? (Bild: Shutterstock/Rokas Tenys)

Wenn KI-Entwickler:innen neue Modelle auf den Markt bringen, werden sie meist in bekannten Benchmarks miteinander verglichen. Gerade für Laien ist es aber oftmals schwierig nachzuvollziehen, warum ein Modell von OpenAI deutlich besser sein soll, weil es in einem Benchmark fünf Punkte mehr als Googles Gemini erreicht hat. Das hat sich auch Adi Singh gedacht und einen leicht verständlichen und interaktiven Benchmark erstellt.

Anzeige
Anzeige

Ein KI-Benchmark in Minecraft: So nehmt ihr daran teil

Welche KI hat die bessere Ananas in Minecraft gebaut? (Screenshot: t3n)

Um den Zugang zu KI-Benchmarks zu vereinfachen, hat er MC-Bench ins Leben gerufen. Dabei handelt es sich um einen von Minecraft gestützten KI-Test. Gegenüber Techchrunch verriet der Highschool-Schüler: „Minecraft erlaubt es Menschen, den Fortschritt von KI-Entwicklung besser zu verfolgen. Die Menschen haben sich an Minecraft gewöhnt, an das Aussehen und das Gefühl des Spiels“.

Wenn ihr MC-Bench aufruft, werden direkt zwei zufällig ausgewählte KI-Modelle miteinander verglichen. Beide bekommen einen Prompt, um eine bestimmte Szene oder ein Objekt in Minecraft nachzubauen. Das reicht etwa von einer Ananas – die ihr oben im Bild seht – bis zu einer Nachstellung des Mauerfalls in Deutschland. Der Test erfolgt dabei blind. Die dahinterliegenden KI-Modelle werden erst später angezeigt.

Anzeige
Anzeige

Unter den Minecraft-Bauten wählt ihr das Werk aus, das euch am besten gefällt – oder ob die beiden Modelle gleich gut oder schlecht abgeschnitten haben. Am Ende wird euch dann noch gezeigt, welche KI für die Minecraft-Gebilde verantwortlich sind. Die Ergebnisse, die von der Community gewählt werden, landen am Ende in einer ausführlichen Bestenliste.

Zum Zeitpunkt dieser Meldung ist Claude 3.7 Sonnet der Spitzenreiter dieser Bestenliste. Das Modell von Anthropic konnte sich in 85 Prozent der Fälle gegen die Konkurrenz durchsetzen. Allerdings hat die KI auch deutlich weniger Kämpfe austragen müssen (736) als ein GPT 4.5 mit mehr als 1.300 Votes. Die OpenAI-KI landet mit knapp 73 Prozent Siegen auf Platz 2. Auf dem dritten Platz landet Deepseek R1 mit mehr als 1.400 Votes und einer Gewinnrate von etwa 67 Prozent. Am Ende der Tabelle findet sich das chinesische Modell Qwen-Turbo, das sich nur in knapp 13 Prozent der Fälle durchsetzen konnte.

Anzeige
Anzeige

Mit diesen Tools nutzt ihr KI auch lokal

Lokale KI: Mit diesen 6 Tools kein Problem Quelle: Midjourny / t3n
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige