Forschende der Universität von Kalifornien haben zusammen mit Wissenschaftlerinnen und Wissenschaftlern des Hybrid-Robotics-Labs der Universität von Berkeley ein neues Framework zum Reinforcement Learning entwickelt und in einem dem Roboterhund Spot von Boston Dynamics sehr ähnlich sehenden Vierbeiner namens Mini Cheetah ausprobiert. Mini Cheetah ist eine Entwicklung des Massachusetts Institute of Technology (MIT) in Cambridge im US-Bundesstaat Massachusetts.
Torhüten ist ein komplexes Problem für eine KI
Das neue Framework setzt auf sich selbst bestätigendes Lernen. Dabei handelt es sich um eine fortschrittliche Methode des Machine Learning, bei der die Software nicht an einem einzigen, wenn auch riesigen Trainingsdatensatz befähigt wird, sondern sich im Einsatz selbst ständig weiter trainiert.
Das neue Modell aus Berkeley macht den Mini Cheetah entsprechend zu einem reaktionsschnellen Torhüter, dem zum Ende der Trainingsphase kaum noch ein Ball ins Netz durchgegangen war. Das Hüten eines Tores haben die Forschenden dabei nicht zufällig zum Grundproblem erklärt.
Wie sie in ihrer jüngst auf dem Preprint-Server Arxiv veröffentlichten Studie erläutern, war die Wahl auf das Torhüten gefallen, weil es sich dabei um „ein anspruchsvolles Problem, das hochdynamische Fortbewegung mit präziser und schneller Manipulation eines nicht greifbaren Objekts (Ball) kombiniert“, handele. Dabei müsse der Roboter „auf einen möglicherweise fliegenden Ball mit dynamischen Bewegungsmanövern in einer sehr kurzen Zeitspanne reagieren und ihn abfangen, normalerweise in weniger als einer Sekunde“.
Das sei ein guter Anwendungsfall für ein Reinforcement-Learning-Framework, so die Autoren. Dabei setzen sie auf ein zweigeteiltes Modell.
Zweistufiges Modell als Erfolgsfaktor
Der erste Teil der KI stellt „mehrere Kontrollstrategien für verschiedene Fortbewegungsfähigkeiten, die verwendet werden können, um verschiedene Regionen des Ziels abzudecken“, bereit. Mit anderen Worten: Dieser Teil des Modells erlaubt die Kombination gängiger Fortbewegungsmethoden wie Springen, Ducken oder Ausweichen mit zielorientiertem Handeln.
Das zweite, sozusagen übergeordnete Modell erlaubt dann die Bestimmung der konkreten Bewegung, die geeignet ist, den anfliegenden Ball abzuwehren. Um zu demonstrieren, wie das aussieht, haben die Forschenden das folgende, etwas mehr als eine Minute lange Video gedreht:
Für den Test kam ein sehr kleines Tor mit Abmessungen von 1,5 mal 0,9 Metern zum Einsatz. Größere Tore hätte der kleine Vierbeiner innerhalb der zur Verfügung stehenden Zeit nicht abdecken können.
Robotorwart besser als das Original?
Die abzuwehrenden Bälle wurden teilweise geworfen, teilweise leicht geschossen. Insofern ist der von den Forschenden reklamierte höhere Erfolg von fast 88 Prozent gehaltener Bälle im Vergleich zu etwa 69 Prozent bei menschlichen Torhütern mit Vorsicht zu genießen.
Denn zum einen ist das Größenverhältnis der bestimmenden Faktoren Ball, Tor und Torwart völlig anders und zum anderen werden Bälle in echten Spielen nicht geworfen, sondern mit deutlicher Härte geschossen. Die Forschenden ficht das nicht an. Sie wollen ihr Modell nun auch auf robotische Feldspieler übertragen.