KI-generierte Bilder zeigen Robotern, wie sie sich verhalten sollen
Bei immer mehr Nutzern sind sie der Hit: Generative KI-Modelle können innerhalb von Sekunden Bilder als Reaktion auf Eingabeaufforderungen erzeugen und wurden in letzter Zeit für alles Mögliche eingesetzt – von lustigen Memes bis hin zur Erhaltung wertvoller Erinnerungen.
Jetzt nutzen Forscher des Robot Learning Lab um den Forscher Stephen James in London bilderzeugende KI-Modelle für einen neuen Zweck: die Erstellung von Trainingsdaten für Roboter. Sie haben dafür eine neue Software namens Genima entwickelt, die den Bildgenerator Stable Diffusion verfeinert, um die Bewegungen von Robotern vorzuzeichnen und sie sowohl durch Simulationen als auch die reale Welt zu führen. Die Forschungsergebnisse sollen nächsten Monat auf der Conference on Robot Learning (CoRL) vorgestellt werden.
Das System könnte es unter anderem erleichtern, verschiedene Arten von Robotern für die Ausführung von Aufgaben zu trainieren – Systeme, die von mechanischen Armen bis hin zu humanoiden Robotern und fahrerlosen Autos reichen. Es könnte auch dazu beitragen, KI-Agenten fürs Web, eine neue Generation von KI-Tools, die komplexe Aufgaben mit wenig Aufsicht ausführen können, besser beim Scrollen und Klicken zu machen, sagt Mohit Shridhar, ein auf Robotermanipulation spezialisierter Forscher, der an dem Projekt mitgearbeitet hat.
„Mit Bildgenerierungssystemen kann man fast alles erstellen, was man in der Robotik machen kann“, sagt er. “Wir wollten herausfinden, ob wir all diese erstaunlichen Dinge, die bei Diffusion-Systemen passieren, für Robotikprobleme nutzen können.“ Um einem Roboter beizubringen, eine Aufgabe zu erledigen, trainieren Forscher normalerweise ein neuronales Netz mit einem Bild von dem, was sich vor dem Roboter befindet. Das Netz liefert dann Outputs in einem passenden Format – beispielsweise die Koordinaten, die für die Vorwärtsbewegung erforderlich sind.
Input und Output ganz neu
Genimas Ansatz ist anders, da sowohl der Input als auch der Output Bilder sind. Von diesen können die Maschinen leichter lernen, sagt Ivan Kapelyukh, Doktorand am Imperial College London, der sich auf das Anlernen von Robotern spezialisiert hat. „Es ist auch für die Benutzer wirklich toll, weil sie sehen können, wohin sich der Roboter bewegen und was er tun wird. Es macht alles verständlicher und heißt, dass man sehen kann, was passiert, bevor der Roboter in eine Wand fährt oder etwas anderes passiert.“
Genima nutzt die Fähigkeit von Stable Diffusion, Muster zu erkennen (etwa zu wissen, wie eine Tasse aussieht, weil sie beispielsweise auf Bildern von Tassen trainiert wurde), und verwandelt das Modell dann in eine Art Agent für den Roboter – ein System zur Entscheidungsfindung. Zunächst hatten die Forscher Stable Diffusion so eingestellt, dass sie Daten von Robotersensoren auf Bilder, die von den Kameras aufgenommen wurden, legen können.
Das System rendert dann die gewünschte Aktion, wie das Öffnen einer Schachtel, das Aufhängen eines Schals oder das Aufheben eines Notizbuchs, in eine Reihe von farbigen Kugeln über das Bild. Diese Kugeln teilen dem Roboter mit, wohin sich sein Gelenk in einer Sekunde in der Zukunft bewegen soll.
Im zweiten Teil des Prozesses werden diese Kugeln in Aktionen umgewandelt. Das Team erreichte dies durch die Verwendung eines anderen neuronalen Netzwerks namens ACT, das auf denselben Daten abgebildet wird. Dann verwendeten sie Genima, um 25 Simulationen und neun reale Manipulationsaufgaben mit einem Roboterarm durchzuführen. Die durchschnittliche Erfolgsquote lag bei 50 beziehungsweise 64 Prozent.
Genaugikeit muss verbessert werden
Obwohl diese Erfolgsquoten nicht besonders hoch sind, sind Shridhar und das Team optimistisch, dass die Geschwindigkeit und Genauigkeit des Roboters verbessert werden kann. Sie sind besonders daran interessiert, Genima auf KI-Modelle zur Videoerzeugung anzuwenden, die einem Roboter helfen könnten, eine Abfolge zukünftiger Aktionen vorherzusagen, anstatt nur eine.
Die Forschung könnte besonders nützlich sein, um Haushaltsroboter darin zu trainieren, Wäsche zu falten, Schubladen zu schließen und andere Aufgaben zu erledigen.
Der generalisierte Ansatz bedeutet jedoch, dass dieser nicht auf eine bestimmte Art von Maschine beschränkt ist, sagt Zoey Chen, Doktorandin an der University of Washington, die bereits früher Stable Diffusion zur Generierung von Trainingsdaten für Roboter verwendet hat, aber nicht an dieser Studie beteiligt war.
„Dies ist eine wirklich spannende neue Richtung“, sagt sie. “Ich denke, dass dies eine allgemeingültige Methode werden kann, um Daten für alle Arten von Robotern zu trainieren.“ Mit Videogeneratoren wird sie noch besser.