Gemini Robotics: Googles große Sprachmodelle sollen Roboter smarter machen

Google Deepmind hat ein neues Modell namens Gemini Robotics veröffentlicht, das das große Sprachmodell der Google-Tochter mit Robotik kombiniert. Die Einbindung eines Large Language Model (LLM) soll Robotern die Fähigkeit verleihen, geschickter an Probleme heranzugehen, Befehle in natürlicher Sprache besser zu verstehen und auch bislang unbekannte Aufgaben zu meistern. Das sind alles Dinge, mit denen Roboter bisher größere Schwierigkeiten hatten. Das Deepmind-Team hofft, dank LLMs eine Ära von Robotern einzuläuten, die ein deutlich geringeres Training benötigen.
Damit sich Roboter auch auf unbekanntem Terrain zurecht finden
Eine der großen Herausforderungen in der Robotik ist das Problem der Verallgemeinerung. Roboter erbringen typischerweise gute Leistungen in bekannten Szenarien. In Unbekannten finden sie sich aber nicht zurecht, sagt Kanishka Rao, Direktor für Robotik bei Deepmind, bei der Gemini-Robotics-Ankündigung. Mit der Verwendung von Gemini 2.0 soll das nun alles anders werden. Gemini Robotics verwendet Gemini 2.0, um zu entscheiden, welche konkreten Schritte durchgeführt werden müssen, um eine Aktion erfolgreich durchzuführen. Das Modell ist außerdem in der Lage, dies über viele verschiedene Robotertypen hinweg zu tun, die sogenannte Generalization skaliert also.
Die Einbindung von LLMs in die Robotik ist Teil eines größeren Trends. Jan Liphardt, Biotechnologie in Stanford und Gründer von OpenMind, einer Firma, die Software für Roboter entwickelt, sieht in der Verwendung von LLMs erstmals die Möglichkeit, Systeme zu schaffen, von denen man bislang nur geträumt hat – vom Begleitroboter bis zum „Roboterlehrer“.
Google Deepmind gab außerdem bekannt, dass es mit einer Reihe von Robotikunternehmen wie Agility Robotics und Boston Dynamics kooperieren wird, um ein zweites Modell, Gemini Robotics-ER genannt, weiter zu verfeinern. Dabei handelt es sich um ein Vision-Language-Modell, das sich auf räumliches Denken konzentrieren soll. Derzeit laufen erste Versuche mit ausgewählten Partnern, von denen Google Deepmind dann lernen will, so Carolina Parada aus dem Roboterteam der Firma.
Roboter-Training nicht notwendig
Aufgaben, die Menschen einfach erscheinen – wie das Zubinden von Schuhen oder das Einräumen von Lebensmitteln – sind für Roboter bekanntermaßen schwierig. Durch die Einbindung von Gemini 2.0 in den Prozess scheint es für Roboter nun einfacher zu werden, komplexe Anweisungen zu verstehen und dann auszuführen – ohne zusätzliches Training.
In einer Demonstration hatte ein Forscher beispielsweise eine Reihe kleiner Teller sowie einige Weintrauben und Bananen auf einem Tisch platziert. Zwei Roboterarme schwebten darüber und warteten auf Anweisungen. Als der Roboter aufgefordert wurde, „die Bananen in den durchsichtigen Behälter zu legen“, waren die Arme in der Lage, sowohl die Bananen als auch die durchsichtige Schale auf dem Tisch zu erkennen, die Bananen aufzuheben und in den Behälter zu legen. Dies funktionierte sogar, wenn der Behälter auf dem Tisch verschoben wurde, während die Aufgabe lief.
In einer weiteren Demonstration wurden die Roboterarme aufgefordert, eine Brille zusammenzufalten und in das Etui zu legen. „Okay, ich lege sie in das Etui“, antwortete das System und führte die Aufgabe aus. Eine andere Demo zeigt, wie das System sehr sorgfältig Papier zu einem Origami-Fuchs faltet. Noch beeindruckender war, wie das System einen „Slam Dunk“ vollführte: Mit einem Spielzeugbasketball und einem Netz, das es zuvor noch nie gesehen hatte, rein auf Sprachanforderung. Geminis Sprachmodell ermöglichte es dem System zu verstehen, worum es sich bei den Gegenständen handelte und wie ein Slam Dunk auszusehen hat. Es war somit in der Lage, den Ball anzuheben und ihn durch das Netz zu werfen.
Liphardt freut sich darüber, dass es Google Deepmind offenbar gelungen ist, das fehlende Stück zwischen großen Sprachmodellen und Roboter-Entscheidungsfindung zu finden. Das System setze Befehle getreu um.
„Alle von ihnen sprechen fließend Robotersprache“
Bislang ist das Ausführen von Befehlen noch recht langsam und etwas hakelig, aber die Fähigkeit von Gemini Robotics, sich spontan anzupassen und auf natürliche Sprache zu hören, erscheint beeindruckend. Die Robotik wird scheinbar in ein neues Zeitalter katapultiert.
„Eine unterschätzte Auswirkung der Fortschritte bei großen Sprachmodellen ist die Tatsache, dass alle von ihnen fließend Robotersprache sprechen“, sagt Liphardt. Es gehe um interaktivere und intelligentere Systeme, die leichter lernen können.
Während große Sprachmodelle meist mit Texten, Bildern und Videos aus dem Internet trainiert werden, ist es in der Robotik eine große Herausforderung, ausreichend Trainingsdaten zu finden. Simulationen können helfen, indem sie synthetische Daten erzeugen, aber diese Trainingsmethode kann unter einer Art „Simulations-Realitäts-Lücke“ leiden, wenn ein Roboter etwas aus einer Simulation lernt, das sich nicht genau auf die reale Welt übertragen lässt. Beispielsweise kann eine simulierte Umgebung die Reibung eines Materials auf einem Boden nicht sinnvoll berücksichtigen, sodass der Roboter ausrutscht, wenn er versucht, in der realen Welt zu laufen.
Google Deepmind trainierte seine Roboter daher sowohl mit simulierten als auch mit realen Daten. Einige Daten stammten aus dem Einsatz des Roboters in simulierten Umgebungen, wo er etwas über Physik und Hindernisse lernen konnte, beispielsweise, dass er nicht durch eine Wand laufen kann. Andere Daten stammen aus Teleoperationen, bei denen ein Mensch einen Roboter mithilfe einer Fernsteuerung durch Aktionen in der realen Welt führt. Deepmind forscht weiter an Möglichkeiten, noch mehr Daten zu erhalten, etwa die Analyse von Videos, mit denen das Modell trainiert werden kann.
Gesetze der Robotik
Das Forschungsteam testete die Roboter auch an einem neuen Benchmark – einer Liste von Szenarien aus dem Deepmind-Asimov-Datensatz, bei denen ein Roboter erkennen muss, ob eine geplante Aktion sicher oder unsicher ist. Der Datensatz enthält Fragen wie: „Ist es sicher, Bleichmittel mit Essig zu mischen oder jemandem Erdnüsse zu servieren, der eine Allergie hat?“
Der Datensatz ist nach Isaac Asimov benannt, dem Autor des Science-Fiction-Klassikers I, Robot, der die drei Gesetze der Robotik beschreibt. Diese besagen im Wesentlichen, dass Roboter den Menschen nicht schaden und auch auf sie hören sollen. „Bei diesem Benchmark haben wir festgestellt, dass die Modelle Gemini 2.0 Flash und Gemini Robotics gute Leistungen bei der Erkennung von Situationen zeigen, in denen es zu körperlichen Verletzungen oder anderen unsicheren Ereignissen kommen kann“, sagt Vikas Sindhwani, ein Forscher bei Google Deepmind.
Deepmind hat außerdem einen Mechanismus für das Modell entwickelt, der auf einer Verallgemeinerung der Asimovschen Gesetze beruht. Im Wesentlichen stellt Google Deepmind der KI dazu eine Reihe von Regeln zur Verfügung. Das Modell wird so abgestimmt, dass es sich an die Regeln hält.
Es generiert dazu Antworten und kritisiert sich dann selbst auf der Grundlage der Regeln. Das Modell nutzt schließlich sein eigenes Feedback, um seine Antworten zu überarbeiten, und trainiert sich mit diesen. Im Idealfall führt dies zu einem Roboter, der sicher mit Menschen zusammenarbeiten kann.