Dieser KI-Agent könnte das Gaming grundlegend verändern – weil er ganz anders lernt
Künstliche Intelligenz (KI) verbinden wir schon seit ihren ersten Tagen mit dem Medium Videospiel. Schließlich hat ja schon in Pong der computergesteuerte Gegner den Pixel zurück auf unsere Seite geschubst. Der Begriff wird dabei aber zumeist recht schwammig verwendet. Denn nur sehr selten handelt es sich bei dem, was wir in einem Videospiel an Verhalten von Gegnern oder generell NPC (Non Playable Characters) erleben, wirklich um künstliche Intelligenz.
Vielmehr sind es sogenannte Skripte, die da ausgeführt werden. Wenn-dann-Szenarien mit etlichen Abzweigungen, die etwa die Reaktion eines Gegners auf Beschuss in einem modernen Call of Duty nahezu realistisch erscheinen lassen. Google aber stellt nun die Forschung eines Teams rund um die KI Deepmind vor, die das Erleben von Videospielen tatsächlich stark verändern könnte.
„Ein generalistischer KI-Agent für virtuelle 3D-Umgebungen“
Sima hat Google diesen KI-Agenten genannt. Das steht für „Scalable Instructable Multiworld Agent“ – also skalierbarer anweisbarer Multiwelt-Agent. Ein ziemlich happiger Titel, der aber ziemlich genau zeigt, was Sima so kann. Oder zumindest können soll. Denn das Besondere an ihm ist, dass er keinen Zugang zum Code eines jeweiligen Spiels braucht und auch keine speziellen Schnittstellen. Stattdessen benötigt der Agent zum Lernen nur die Bilder, die auf dem Screen zu sehen sind, und sprachliche Anweisungen, die von einem User gegeben wurden. Damit ist diese Vorgehensweise also nicht nur auf ein Spiel anwendbar, sondern breit skalierbar.
Für das Training haben die Wissenschaftler von Google mit acht Spielestudios zusammengearbeitet. Darunter Coffee Stain, die viele von Valheim kennen dürften, und Hello Games, die vor allem für No Man’s Sky bekannt sind. „Jedes Spiel im Sima-Portfolio eröffnet eine neue interaktive Welt, einschließlich einer Reihe von Fähigkeiten, die es zu erlernen gilt. Von einfacher Navigation und Menünutzung bis hin zum Abbau von Ressourcen, dem Fliegen eines Raumschiffs oder der Herstellung eines Helms“, heißt es in der Veröffentlichung von Google.
Im ersten Schritt habe man jeweils Paare von menschlichen Spielern und Spielerinnen aufgenommen, während ein Part zugeschaut und Anweisungen gegeben habe, und der andere Part das Spiel aktiv gespielt habe.“Wir ließen die Spieler auch frei spielen, sich dann noch einmal ansehen, was sie taten, um dann Anweisungen aufzuzeichnen, die zu ihren Spielaktionen geführt hätten“, heißt es darüber hinaus.
So funktioniert der KI-Agent
Sima hat also nicht durch den Code eines Spiels gelernt, sondern durch das Agieren von Spielerinnen und Spielern, basierend auf dem, was der Bildschirm zeigt und welche sprachlichen Anweisungen gegeben wurden. Und genau so agiert der Agent dann auch im Spiel. Er soll das ausführen, was ihr ihm auftragt – während er auch auf das reagiert, was im Spiel um ihn herum passiert.
Aktuell soll der Agent 600 Grundfähigkeiten besitzen, wie etwa „nach links umdrehen“, „klettre die Leiter herauf“ oder „öffne die Map“ – und soll dabei jetzt schon die KI-Modelle überholt haben, die nur für ein spezifisches Videospiel trainiert wurden. „Darüber hinaus schnitt ein Agent, der in allen Spielen bis auf eines trainiert wurde, bei diesem nicht gesehenen Spiel im Durchschnitt fast genauso gut ab wie ein Agent, der speziell dafür trainiert wurde“, heißt es in dem Text von Google. Das zeige, dass Sima auch in unbekannter Umgebung funktionieren könne – und damit mehr kann als nur das, was ihm beigebracht wurde.
Wichtig sei aber immer die sprachliche Anweisung. Ohne diese würde sich Sima zwar „angebracht“, aber „ziellos“ verhalten. Dann würde der Agent etwa Ressourcen sammeln, weil er gelernt hat, dass das in einem Spiel eine häufige Tätigkeit ist, aber nicht einen bestimmten Weg gehen, der ihm angewiesen wurde.
Was wird sich dadurch verändern?
Zunächst ist es wichtig, anzumerken, dass sich Sima noch in Entwicklung befindet. Aber: „Wir möchten, dass unsere zukünftigen Agenten Aufgaben bewältigen, die eine umfassende strategische Planung und mehrere Unteraufgaben erfordern, wie zum Beispiel ‚Ressourcen finden und ein Lager errichten‘“, heißt es. Es ist also davon auszugehen, dass Sima, oder ein ähnlicher KI-Agent, in nicht allzu ferner Zukunft tatsächlich in einem kommerziellen Videospiel zu finden sein wird.
Und das könnte einiges an der Weise, wie Videospiele funktionieren, grundlegend verändern. Wie anfangs angerissen wären Games dann nicht mehr auf Skripte angewiesen, die immer nach einem ähnlichen Schema funktionieren. Die Charaktere in einem Videospiel würden dann nicht mehr auf einigermaßen festen Bahnen laufen. Stattdessen würden sie sich, basierend auf ihrem Training, mehr oder weniger frei im Spiel bewegen – eben nach den Anweisungen, die ihr als Spieler oder Spielerinnen ihnen gebt.
Genauso könnte aber das Spielen selbst stark dadurch verändert werden. Wenn ihr nicht mehr per physischer Eingabe das Spiel kontrolliert, sondern indem ihr mit dem Spiel sprecht – ihm Anweisungen gibt, die dann in eurem Sinne ausgeführt werden.
Zunächst müsste sowas wohl in einem noch eingeschränkten Rahmen passieren, bezüglich der Anweisungen, die ihr geben könnt. Denn je mehr Möglichkeiten es in einem Spiel gibt, desto mehr Fehler können auch auftreten. Und wohl niemand möchte ein Spiel, in dem die NPC völlig frei machen, was sie wollen – denn dann würde das Spiel so auf den Kopf gestellt, wie man es gerade nicht will.
Doch zeigen die jetzigen Möglichkeiten von Sima schon, dass KI-Agenten, die individuell auf die Spielenden reagieren, eine nicht ganz so ferne Zukunft sein werden. Besonders dann nicht, wenn sie eben nicht für einzelne Spiele entwickelt, sondern als skalierbares Modell auch von kleineren Studios genutzt werden können. Denn wenn diese KI einmal trainiert ist, kann sie anscheinend so gut wie jede 3D-Umgebung unsicher machen.
So reagieren Entwickler darauf
Wir haben bereits mit einigen Entwicklern über diese neuen KI-Agenten gesprochen. Ausprobieren konnte ihn bisher freilich noch niemand, aber die ersten Reaktionen sind sehr positiv. „Das klingt spannend“, sagt etwa Paul Lawitzki, Programmierer und Game-Designer bei Chasing Carrots. „Das könnte ein guter Einstiegspunkt sein, um interessantere Ingame-Charaktere zu haben, die viel lösungsorientierter mit oder gegen den Spieler spielen“, führt er aus. Auch für die Barrierefreiheit könnte diese Entwicklung einen Schub bringen.
„Menschen, die Tastatur und Maus oder ein Gamepad nicht bedienen können, könnten die Möglichkeit bekommen, Spiele auf eine andere Art und Weise zu erleben“, so Lawitzki. Schließlich könnten sie dann Anweisungen per Sprache geben, ohne Eingaben per Knopf oder Analogstick ausführen zu müssen.