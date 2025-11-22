Das Training in den Videospiel-Welten dient dabei als Vorbereitung: Langfristig möchte Google Deepmind solche Agenten einsetzen, um Roboter in der realen Welt zu steuern. (Grafik: Google Deepmind)

Sima 2 heißt der neue Videospiel-Agent von Google Deepmind. Er soll sich in einer Vielzahl von virtuellen 3D-Welten zurechtfinden und Probleme lösen. Das Unternehmen geht damit nach eigenen Angaben einen großen Schritt in Richtung universeller Agenten und besserer Roboter für die reale Welt.

Den Vorgänger Sima („scalable instructable multiworld agent“) stellte Deepmind im vergangenen Jahr vor. Sima 2 basiert jedoch auf Gemini, dem großen Sprachmodell von Google, das die Fähigkeiten des Agenten erheblich verbessern soll.

Sima 2 kann eine Reihe komplexerer Aufgaben in virtuellen Welten ausführen, selbstständig Lösungen für bestimmte Herausforderungen finden und mit seinen Benutzer:innen chatten, teilt Deepmind mit. Durch „Trail and Error“ und das Angehen schwieriger Aufgaben, könne sich der Agent auch selbst verbessern, heißt es.



Warum Agenten in Spielewelten trainiert werden

„Spiele sind seit geraumer Zeit eine treibende Kraft hinter der Agentenforschung“, sagte Joe Marino, Forscher bei Google Deepmind, diese Woche auf einer Pressekonferenz. Er merkte an, dass selbst eine einfache Handlung in einem Spiel, wie eine Laterne anzünden, mehrere Schritte umfassen kann: „Es ist eine wirklich komplexe Reihe von Aufgaben, die man lösen muss, um voranzukommen.“

Das ultimative Ziel ist die Entwicklung von Agenten der nächsten Generation. Sie sollen in der Lage sein, Anweisungen zu befolgen und offene Aufgaben in komplexeren Umgebungen als einem Webbrowser auszuführen. Das Training in den Videospiel-Welten dient dabei als Vorbereitung: Langfristig möchte Google Deepmind solche Agenten einsetzen, um Roboter in der realen Welt zu steuern. Marino sieht in den neuen Fähigkeiten von Sima 2, etwa die Navigation in einer Umgebung, die Verwendung von Werkzeugen und die Zusammenarbeit mit Menschen zur Lösung von Problemen, wesentliche Bausteine für zukünftige Roboterbegleiter.

Im Gegensatz zu früheren Arbeiten an Spielagenten wie Alphazero, das 2016 einen Go-Großmeister besiegte, oder Alphastar, das 2019 99,8 Prozent der rangierten menschlichen Wettkampfspieler im Videospiel StarCraft 2 besiegte, besteht die Idee hinter Sima darin, einen Agenten zu trainieren, ein offenes Spiel ohne vorgegebene Ziele zu spielen. Stattdessen lernt der Agent, Anweisungen auszuführen, die ihm von Menschen gegeben werden.

Wie das Lernen des KI-Agenten erfolgt

Menschen steuern Sima 2 über einen Text-Chat, indem sie laut mit ihm sprechen oder auf den Bildschirm des Spiels zeichnen. Der Agent nimmt die Pixel eines Videospiels Frame für Frame auf und findet heraus, welche Aktionen er ausführen muss, um seine Aufgaben zu erfüllen.

Wie sein Vorgänger wurde Sima 2 anhand von Aufnahmen von Menschen trainiert, die acht kommerzielle Videospiele spielten, darunter No Man’s Sky und Goat Simulator 3, sowie drei von dem Unternehmen geschaffene virtuelle Welten. Der Agent lernte, Tastatur- und Mauseingaben mit Aktionen abzugleichen.

Die Deepmind-Forscher:innen sehen bei Sima 2 durch Gemini eine deutliche Verbesserung, wenn es darum geht, Anweisungen zu befolgen (Fragen zu stellen und dabei Updates zu geben) und selbst herauszufinden, wie bestimmte komplexere Aufgaben zu erledigen sind.

Deepmind testete den Agenten in Umgebungen, die er noch nie zuvor gesehen hatte. In einer Reihe von Experimenten baten die Forscher:innen Genie 3, die neueste Version des Weltmodells des Unternehmens, Umgebungen von Grund auf neu zu erstellen und Sima 2 in diese zu versetzen. Sie stellten fest, dass der Agent in der Lage war, sich dort zurechtzufinden und Anweisungen auszuführen.

Gemini generierte dann neue Aufgaben für Sima 2. Wenn der Agent scheiterte, lieferte Gemini zunächst Tipps, die Sima 2 bei seinem nächsten Versuch berücksichtigte. Durch die mehrfache Wiederholung einer Aufgabe auf diese Weise konnte sich Sima 2 oft durch Ausprobieren verbessern, bis die Aufgabe umgesetzt war, sagte Marino.

Wo es bei Sima 2 noch hapert

Sima 2 ist noch auf dem Level Experiment. Der Agent hat Schwierigkeiten mit komplexen Aufgaben, die mehrere Schritte und mehr Zeit zur Ausführung erfordern. Außerdem erinnert er sich nur an seine letzten Interaktionen (um Sima 2 reaktionsschneller zu machen, hat das Team sein Langzeitgedächtnis reduziert). Auch ist er noch lange nicht so gut wie Menschen darin, mit Maus und Tastatur mit einer virtuellen Welt zu interagieren.

Julian Togelius, KI-Forscher an der New York University, der sich mit Kreativität und Videospielen beschäftigt, hält das Ergebnis für interessant. Frühere Versuche, ein einzelnes System für mehrere Spiele zu trainieren, seien nicht besonders gut verlaufen, sagt er. Das liege daran, dass es nicht einfach sei, Modelle zu trainieren, die mehrere Spiele nur durch Beobachten des Bildschirms steuern: „Das Spielen in Echtzeit nur anhand visueller Eingaben ist ein ‚Hard Mode‘“, sagt er.

Insbesondere erwähnt Togelius GATO, ein früheres System von Google Deepmind, das – obwohl es damals viel beachtet wurde – keine Fähigkeiten auf eine bedeutende Anzahl virtueller Umgebungen übertragen konnte.

Ob das zu besseren Robotern führt, lässt Togelius offen. „Die reale Welt ist einerseits schwieriger andererseits auch einfacher als Videospiele“, sagt er. Sie ist schwieriger, weil man nicht einfach A drücken kann, um eine Tür zu öffnen. Gleichzeitig weiß ein Roboter in der realen Welt jederzeit genau, was sein Körper kann und was nicht. Das ist in Videospielen nicht der Fall, wo die Regeln innerhalb jeder virtuellen Welt unterschiedlich sein können.

Matthew Guzdial, KI-Forscher an der University of Alberta, ist hingegen nicht allzu überrascht, dass Sima 2 viele verschiedene Videospiele spielen kann. Er weist darauf hin, dass die meisten Spiele sehr ähnliche Tastatur- und Maussteuerungen haben: Wenn man eine lernt, kann man alle lernen. „Wenn man ihm ein Spiel mit seltsamen Eingaben vorlegt, glaube ich nicht, dass es gut funktionieren würde“, sagt er.

Welten von Genie, Tipps von Gemini

Guzdial stellt auch infrage, wie viel von dem, was Sima 2 gelernt hat, wirklich auf Roboter übertragbar ist. „Es ist viel schwieriger, Bilder von Kameras in der realen Welt zu verstehen als in Spielen, die mit leicht zu verarbeitenden Bildern für menschliche Spieler gestaltet sind“, sagt er.

Dennoch hoffen Marino und seine Kolleg:innen, ihre Arbeit mit Genie 3 fortsetzen zu können. So soll sich der Agent in einer Art endlosem virtuellen Trainings-„Dojo“ weiter verbessern. Genie generiert dabei die Welten für Sima, in denen der Agent durch Versuch und Irrtum unter Anleitung von Gemini lernen kann. „Wir haben gerade erst an der Oberfläche dessen gekratzt, was möglich ist“, sagte Marino auf der Pressekonferenz.

Dieser Artikel stammt von Will Douglas Heaven. Er ist Senior Editor bei der US-amerikanischen Ausgabe von MIT Technology Review und ist für den Bereich KI zuständig.