DeepMinds Robo-Kicker lassen sich auch von Fouls nicht bremsen

Wenn Roboter Fußball spielen, ist das häufig ziemlich unterhaltsam. Denn Roboter mögen zwar viele beeindruckende Fähigkeiten haben, Fußball gehört bislang nicht dazu. Bei Wettbewerben wie dem seit 1997 stattfindenden RoboCup wird deutlich, weshalb man sie so schnell nicht in der Bundesliga sehen wird: Sie sind langsam, unkoordiniert und benötigen wie im Fall des ARTEMIS-Roboters trotz großer Versprechen teilweise noch Menschen, die sicherheitshalber hinten ihnen stehen, falls sie umfallen sollten.
Forscherinnen und Forscher von Googles KI-Unternehmen DeepMind wollen das ändern. In einer Studie, die nun im Fachmagazin Science Robotics erschienen ist, haben sie versucht, einem zweibeinigen Robotern mithilfe von bestärkendem Lernen zumindest rudimentäres fußballerisches Talent beizubringen. Der geschulte Roboter habe „agile und dynamische Bewegungen“ gezeigt, schreiben sie. Er konnte sich nicht nur auf dem Spielfeld selbstständig frei bewegen, sondern auch schießen, mit dem Ball interagieren und nach Stürzen selbstständig wieder aufstehen.
Zum Einsatz kamen in der Studie Roboter vom Typ OP3 des Herstellers Robotis. Dabei handelt es sich um knapp 50 Zentimeter große, humanoide Roboter, die mit einer handelsüblichen Webcam in den Augen ausgestattet sind und auf einer Open-Source-Plattform aufbauen. Es sind also vergleichsweise simple und kostengünstige Roboter, die nicht ausschließlich dafür entwickelt wurden, Fußball zu spielen. Das macht die Ergebnisse umso beeindruckender.
Von der Simulation auf den Fußballplatz
Das Training der Robo-Fußballer war in zwei Phasen aufgeteilt. Zunächst lernten die Roboter in einer simulierten Umgebung vom Boden aufzustehen und bekamen die Aufgabe beigebracht, Tore zu erzielen. In der zweiten Phase kamen dann, ebenfalls zunächst in einer Simulation, weitere Aufgaben hinzu, die in einem Eins gegen Eins auf dem Fußballplatz wichtig sind. In dieser Phase spielte das System gegen sich selbst und lernte mittels bestärkenden Lernens, welche Strategien und Bewegungen am ehesten dazu führten, Tore zu erzielen. Nach der simulierten Trainingsphase durften sich die echten Roboter auf einem vier mal fünf Meter großen Spielfeld austoben.
„Die Roboter-Agenten lernten, zuvor erlernte Fähigkeiten zu kombinieren, zu verfeinern und das Verhalten des Gegners zu antizipieren“, schreiben die Forschenden. Sie standen nach Stürzen schnell wieder auf, sie konnten rollende Bälle schießen und schnell die Richtung wechseln. Sie machten sogar kürzere „Trippelschritte“, wenn sie in die Nähe eines Gegner kamen und zeigten „strategische Verhaltensweisen“, indem sie sich konsequent zwischen Gegner und das eigene Tor positionierten, Schüsse abblockten und den Ball mit dem eigenen Körper abschirmten.
In den mit der Studie veröffentlichten Videos sieht das zwar immer noch alles ziemlich unbeholfen aus. Im Vergleich mit anderen Systemen sind die DeepMind-Roboter aber tatsächlich ziemlich beweglich: In den Testspielen liefen die trainierten Roboter 181 Prozent schneller, drehten sich 302 Prozent schneller, und benötigten 63 Prozent weniger Zeit, um von einem Sturz wieder aufzustehen im Vergleich zu Robotern mit traditionell einprogrammierten Bewegungen, also ohne bestärkendes Lernen. Insgesamt schnitt das System in der simulierten Umgebung etwas besser ab als auf dem tatsächlichen Spielfeld, aber insgesamt war der Roboter in der Lage, zuverlässig aufzustehen, den Ball zu schießen und zu punkten.
Komplexe Interaktionen mit bestärkendem Lernen
Das Team von DeepMind war nicht das erste, das bestärkendes Lernen zum Trainieren von Robotern einsetzt, wie die Verantwortlichen selbst schreiben. Allerdings konzentrierten sich viele Arbeiten auf Roboter mit vier Beinen, wie den vielseitig einsetzbaren Roboterhund Spot, und weniger auf humanoide Roboter, die sich zweibeinig fortbewegen und deshalb einen komplizierteren Bewegungsapparat haben. Mit der Studie wolle man zeigen, dass mithilfe von KI selbst mit simplen Robotern wie OP3 komplexe Interaktionen möglich sind.
Beim RoboCup, wo bereits andere Teams mit OP3-Systemen an den Start gingen, wird man die DeepMind-Kicker aber so schnell nicht sehen. Denn obwohl sie einige Skills gelernt haben, fehle ihnen das Verständnis, was es für ein richtiges Fußballspiel mit Teams, Auswechslungen und Foulspiel braucht, heißt es. Wobei man das ehrlich gesagt auch über manche menschlichen Kreisligaspieler sagen könnte.