Digit: Wie die Technologie hinter ChatGPT diesen Roboter antreibt
Dieser Humanoide sieht ein bisschen aus wie aus Star Wars – nur vielleicht nicht ganz so elegant. Aber der Digit-Roboter ist keine Science-Fiction, sondern echt.
Ilija Radosavovic und Kollegen von der University of California, Berkeley haben dem etwa 1,60 Meter großen und rund 45 Kilogramm schweren Zweibeiner von Agility Robotics mithilfe eines Transformer-Modells beigebracht, auf den unterschiedlichsten Oberflächen stabil zu laufen. Das Modell arbeitet im Prinzip genau so wie die großen Sprachmodelle, auf denen Chatbots wie ChatGPT beruhen. Und ganz ähnlich wie bei den großen Sprachmodellen entwickelte die Software auch in diesem Fall gänzlich neue Fähigkeiten, auf die sie zuvor nicht trainiert worden war: So hatte sie etwa gelernt, auch rückwärts zu laufen. Technische Einzelheiten beschreiben Radosavovic und Kollegen in einem Paper auf dem Preprint-Server Arxiv.
Laufen für Anfänger
Humanoide, also menschenähnliche Roboter, die ähnlich groß sind wie Erwachsene, gibt es seit den 1970er-Jahren. Dass es verblüffend schwer ist, solche Maschinen auch wie Menschen zum Laufen zu bringen, stellte sich allerdings recht schnell heraus. Theoretisch ist die Lösung des Problem gar nicht so schwierig – allerdings nur dann, wenn der Roboter nicht all zu schnell über einen perfekt ebenen Boden läuft. Zwar hat es seitdem große technische Fortschritte gegeben, der Atlas-Roboter von Boston Dynamics etwa kann einen Hindernis-Parcours bewältigen, das funktioniert aber in der Regel immer nur für einen Spezialfall und muss aufwendig dafür optimiert werden.
Seit einigen Jahren forschen daher diverse Gruppen und Unternehmen an Methoden, bei denen der Roboter aus hinreichend vielen Beispielen die optimalen Bewegungen lernen soll. Radosavovic und sein Team wollten den Roboter mit einem neuronalen Netz in Transformer-Architektur steuern – der Architektur, die auch bei großen Sprachmodellen verwendet wird. Das war allerdings nur über einen Umweg möglich.
Zu wenig Daten
„Im Gegensatz zur Sprache haben wir jedoch keinen leicht zugänglichen Datensatz mit Daten über das Gehen von Humanoiden, aus dem wir lernen könnten“, sagt Radosavovic. „Mit anderen Worten, wir fangen bei Null an, tabula rasa.“
Die Forschenden trainierten ihr Transformer-Modell daher durch Versuch und Irrtum – mittels Verstärkungslernen. „Der Roboter führt zu Beginn zufällige Bewegungssequenzen aus. Jedes Mal, wenn er über ein erwünschtes Verhalten stolpert, zum Beispiel Balancieren oder einen Schritt machen, geben wir eine Belohnung und ermutigen den Roboter, dieses Verhalten wahrscheinlicher zu machen. Wenn der Roboter dagegen ein unerwünschtes Verhalten zeigt, zum Beispiel einen Sturz, gibt es eine Bestrafung/negative Belohnung, um ihn in Zukunft davon abzuhalten“, schreibt Radosavovic. „Im Laufe vieler Versuche konvergiert dieser Prozess zu einem neuronalen Netz, das in der Lage ist, den Roboter zum Laufen zu bringen.“ Die Ergebnisse dieses Trainings beschreiben die Forschenden aktuell in einem Aufsatz für die Fachzeitschrift Science Robotics.
Nach diesem ersten Training war Digit in der Lage, zuverlässig über unterschiedliches Terrain zu laufen, ohne zu stürzen, und mit externen Störungen umzugehen – selbst wenn er unterschiedliche Lasten trug und gestoßen wurde. In ihrer neuesten Arbeit verwendeten die Forschenden dann diese Software, um in einem Simulator Trainingsdaten zu generieren. Zusammen mit Video-Aufnahmen laufender Menschen und Sensordaten des Roboters bekamen die Forschenden genug Daten, um ein neues Transformer-Modell zu trainieren, das nun von Grund selbstständig gehen lernte.
Aktion für Aktion
Das so trainierte Transformer-Modell funktioniert nun tatsächlich so ähnlich wie ein Sprachmodell: Es sagt nach einer Abfolge von Bewegungen die nächste, sinnvolle Bewegung in Form eines Action-Token voraus, die dann ausgeführt wird, und so weiter. Das funktionierte nicht nur in der Simulation, sondern auch bei verschiedenen Experimente in der Stadt. Außerdem entwickelte der Roboter neue Verhaltensweisen. So war er beispielsweise auch in der Lage, rückwärts zu gehen, ohne dabei zu stolpern, ohne explizit darauf trainiert worden zu sein. „Das Ergebnis zeigt einen vielversprechenden Weg, um weitere, komplexe Fähigkeiten zu lernen“, schreiben die Forschenden. Als nächstes wollen sie den Roboter darauf trainieren, Hindernisse zu überwinden, und ihm komplexe Greifbewegungen mit mehrfingrigen Händen beibringen.