Anzeige
Anzeige
MIT Technology Review News
Verpasse keine News mehr!

Gemini Robotics: Googles große Sprachmodelle sollen Roboter smarter machen

Roboter, die von einer Aufgabe auf eine andere schließen können, sind noch immer eine große technische Herausforderung. Die Google-Tochter Deepmind nutzt dafür nun die hauseigenen Gemini-Modelle.

Von MIT Technology Review Online
5 Min.
Artikel merken
Anzeige
Anzeige
Roboter mit Gemini bei der Arbeit (Foto: Google DeepMind)

Google Deepmind hat ein neues Modell namens Gemini Robotics veröffentlicht, das das große Sprachmodell der Google-Tochter mit Robotik kombiniert. Die Einbindung eines Large Language Model (LLM) soll Robotern die Fähigkeit verleihen, geschickter an Probleme heranzugehen, Befehle in natürlicher Sprache besser zu verstehen und auch bislang unbekannte Aufgaben zu meistern. Das sind alles Dinge, mit denen Roboter bisher größere Schwierigkeiten hatten. Das Deepmind-Team hofft, dank LLMs eine Ära von Robotern einzuläuten, die ein deutlich geringeres Training benötigen.

Anzeige
Anzeige

Damit sich Roboter auch auf unbekanntem Terrain zurecht finden

Eine der großen Herausforderungen in der Robotik ist das Problem der Verallgemeinerung. Roboter erbringen typischerweise gute Leistungen in bekannten Szenarien. In Unbekannten finden sie sich aber nicht zurecht, sagt Kanishka Rao, Direktor für Robotik bei Deepmind, bei der Gemini-Robotics-Ankündigung. Mit der Verwendung von Gemini 2.0 soll das nun alles anders werden. Gemini Robotics verwendet Gemini 2.0, um zu entscheiden, welche konkreten Schritte durchgeführt werden müssen, um eine Aktion erfolgreich durchzuführen. Das Modell ist außerdem in der Lage, dies über viele verschiedene Robotertypen hinweg zu tun, die sogenannte Generalization skaliert also.

Die Einbindung von LLMs in die Robotik ist Teil eines größeren Trends. Jan Liphardt, Biotechnologie in Stanford und Gründer von OpenMind, einer Firma, die Software für Roboter entwickelt, sieht in der Verwendung von LLMs erstmals die Möglichkeit, Systeme zu schaffen, von denen man bislang nur geträumt hat – vom Begleitroboter bis zum „Roboterlehrer“.

Anzeige
Anzeige

Google Deepmind gab außerdem bekannt, dass es mit einer Reihe von Robotikunternehmen wie Agility Robotics und Boston Dynamics kooperieren wird, um ein zweites Modell, Gemini Robotics-ER genannt, weiter zu verfeinern. Dabei handelt es sich um ein Vision-Language-Modell, das sich auf räumliches Denken konzentrieren soll. Derzeit laufen erste Versuche mit ausgewählten Partnern, von denen Google Deepmind dann lernen will, so Carolina Parada aus dem Roboterteam der Firma.

Roboter-Training nicht notwendig

Aufgaben, die Menschen einfach erscheinen – wie das Zubinden von Schuhen oder das Einräumen von Lebensmitteln – sind für Roboter bekanntermaßen schwierig. Durch die Einbindung von Gemini 2.0 in den Prozess scheint es für Roboter nun einfacher zu werden, komplexe Anweisungen zu verstehen und dann auszuführen – ohne zusätzliches Training.

Anzeige
Anzeige

In einer Demonstration hatte ein Forscher beispielsweise eine Reihe kleiner Teller sowie einige Weintrauben und Bananen auf einem Tisch platziert. Zwei Roboterarme schwebten darüber und warteten auf Anweisungen. Als der Roboter aufgefordert wurde, „die Bananen in den durchsichtigen Behälter zu legen“, waren die Arme in der Lage, sowohl die Bananen als auch die durchsichtige Schale auf dem Tisch zu erkennen, die Bananen aufzuheben und in den Behälter zu legen. Dies funktionierte sogar, wenn der Behälter auf dem Tisch verschoben wurde, während die Aufgabe lief.

In einer weiteren Demonstration wurden die Roboterarme aufgefordert, eine Brille zusammenzufalten und in das Etui zu legen. „Okay, ich lege sie in das Etui“, antwortete das System und führte die Aufgabe aus. Eine andere Demo zeigt, wie das System sehr sorgfältig Papier zu einem Origami-Fuchs faltet. Noch beeindruckender war, wie das System einen „Slam Dunk“ vollführte: Mit einem Spielzeugbasketball und einem Netz, das es zuvor noch nie gesehen hatte, rein auf Sprachanforderung. Geminis Sprachmodell ermöglichte es dem System zu verstehen, worum es sich bei den Gegenständen handelte und wie ein Slam Dunk auszusehen hat. Es war somit in der Lage, den Ball anzuheben und ihn durch das Netz zu werfen.

Anzeige
Anzeige

Liphardt freut sich darüber, dass es Google Deepmind offenbar gelungen ist, das fehlende Stück zwischen großen Sprachmodellen und Roboter-Entscheidungsfindung zu finden. Das System setze Befehle getreu um.

„Alle von ihnen sprechen fließend Robotersprache“

Bislang ist das Ausführen von Befehlen noch recht langsam und etwas hakelig, aber die Fähigkeit von Gemini Robotics, sich spontan anzupassen und auf natürliche Sprache zu hören, erscheint beeindruckend. Die Robotik wird scheinbar in ein neues Zeitalter katapultiert.

„Eine unterschätzte Auswirkung der Fortschritte bei großen Sprachmodellen ist die Tatsache, dass alle von ihnen fließend Robotersprache sprechen“, sagt Liphardt. Es gehe um interaktivere und intelligentere Systeme, die leichter lernen können.

Anzeige
Anzeige

Während große Sprachmodelle meist mit Texten, Bildern und Videos aus dem Internet trainiert werden, ist es in der Robotik eine große Herausforderung, ausreichend Trainingsdaten zu finden. Simulationen können helfen, indem sie synthetische Daten erzeugen, aber diese Trainingsmethode kann unter einer Art „Simulations-Realitäts-Lücke“ leiden, wenn ein Roboter etwas aus einer Simulation lernt, das sich nicht genau auf die reale Welt übertragen lässt. Beispielsweise kann eine simulierte Umgebung die Reibung eines Materials auf einem Boden nicht sinnvoll berücksichtigen, sodass der Roboter ausrutscht, wenn er versucht, in der realen Welt zu laufen.

Google Deepmind trainierte seine Roboter daher sowohl mit simulierten als auch mit realen Daten. Einige Daten stammten aus dem Einsatz des Roboters in simulierten Umgebungen, wo er etwas über Physik und Hindernisse lernen konnte, beispielsweise, dass er nicht durch eine Wand laufen kann. Andere Daten stammen aus Teleoperationen, bei denen ein Mensch einen Roboter mithilfe einer Fernsteuerung durch Aktionen in der realen Welt führt. Deepmind forscht weiter an Möglichkeiten, noch mehr Daten zu erhalten, etwa die Analyse von Videos, mit denen das Modell trainiert werden kann.

Gesetze der Robotik

Das Forschungsteam testete die Roboter auch an einem neuen Benchmark – einer Liste von Szenarien aus dem Deepmind-Asimov-Datensatz, bei denen ein Roboter erkennen muss, ob eine geplante Aktion sicher oder unsicher ist. Der Datensatz enthält Fragen wie: „Ist es sicher, Bleichmittel mit Essig zu mischen oder jemandem Erdnüsse zu servieren, der eine Allergie hat?“

Anzeige
Anzeige

Der Datensatz ist nach Isaac Asimov benannt, dem Autor des Science-Fiction-Klassikers I, Robot, der die drei Gesetze der Robotik beschreibt. Diese besagen im Wesentlichen, dass Roboter den Menschen nicht schaden und auch auf sie hören sollen. „Bei diesem Benchmark haben wir festgestellt, dass die Modelle Gemini 2.0 Flash und Gemini Robotics gute Leistungen bei der Erkennung von Situationen zeigen, in denen es zu körperlichen Verletzungen oder anderen unsicheren Ereignissen kommen kann“, sagt Vikas Sindhwani, ein Forscher bei Google Deepmind.

Deepmind hat außerdem einen Mechanismus für das Modell entwickelt, der auf einer Verallgemeinerung der Asimovschen Gesetze beruht. Im Wesentlichen stellt Google Deepmind der KI dazu eine Reihe von Regeln zur Verfügung. Das Modell wird so abgestimmt, dass es sich an die Regeln hält.

Es generiert dazu Antworten und kritisiert sich dann selbst auf der Grundlage der Regeln. Das Modell nutzt schließlich sein eigenes Feedback, um seine Antworten zu überarbeiten, und trainiert sich mit diesen. Im Idealfall führt dies zu einem Roboter, der sicher mit Menschen zusammenarbeiten kann.

Dieser Artikel stammt von Scott J Mulligan. Er ist KI-Reporter bei der US-amerikanischen Ausgabe von MIT Technology Review und schreibt über die Bereiche Politik, Regulierung und die technischen Grundlagen.
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige