Anzeige
Anzeige
MIT Technology Review News

KI-generierte Bilder zeigen Robotern, wie sie sich verhalten sollen

Generative KI-Modelle eignen sich nicht nur für die Erstellung schöner Bilder. Sie können auch so angepasst werden, dass sie nützliche Trainingsdaten für Roboter generieren.

Von MIT Technology Review Online
3 Min.
Artikel merken
Anzeige
Anzeige
Roboter hilft Mensch (Foto: Stock-Asso / Shutterstock)

Bei immer mehr Nutzern sind sie der Hit: Generative KI-Modelle können innerhalb von Sekunden Bilder als Reaktion auf Eingabeaufforderungen erzeugen und wurden in letzter Zeit für alles Mögliche eingesetzt – von lustigen Memes bis hin zur Erhaltung wertvoller Erinnerungen.

Anzeige
Anzeige

Jetzt nutzen Forscher des Robot Learning Lab um den Forscher Stephen James in London bilderzeugende KI-Modelle für einen neuen Zweck: die Erstellung von Trainingsdaten für Roboter. Sie haben dafür eine neue Software namens Genima entwickelt, die den Bildgenerator Stable Diffusion verfeinert, um die Bewegungen von Robotern vorzuzeichnen und sie sowohl durch Simulationen als auch die reale Welt zu führen. Die Forschungsergebnisse sollen nächsten Monat auf der Conference on Robot Learning (CoRL) vorgestellt werden.

Das System könnte es unter anderem erleichtern, verschiedene Arten von Robotern für die Ausführung von Aufgaben zu trainieren – Systeme, die von mechanischen Armen bis hin zu humanoiden Robotern und fahrerlosen Autos reichen. Es könnte auch dazu beitragen, KI-Agenten fürs Web, eine neue Generation von KI-Tools, die komplexe Aufgaben mit wenig Aufsicht ausführen können, besser beim Scrollen und Klicken zu machen, sagt Mohit Shridhar, ein auf Robotermanipulation spezialisierter Forscher, der an dem Projekt mitgearbeitet hat.

Anzeige
Anzeige

„Mit Bildgenerierungssystemen kann man fast alles erstellen, was man in der Robotik machen kann“, sagt er. “Wir wollten herausfinden, ob wir all diese erstaunlichen Dinge, die bei Diffusion-Systemen passieren, für Robotikprobleme nutzen können.“ Um einem Roboter beizubringen, eine Aufgabe zu erledigen, trainieren Forscher normalerweise ein neuronales Netz mit einem Bild von dem, was sich vor dem Roboter befindet. Das Netz liefert dann Outputs in einem passenden Format – beispielsweise die Koordinaten, die für die Vorwärtsbewegung erforderlich sind.

Input und Output ganz neu

Genimas Ansatz ist anders, da sowohl der Input als auch der Output Bilder sind. Von diesen können die Maschinen leichter lernen, sagt Ivan Kapelyukh, Doktorand am Imperial College London, der sich auf das Anlernen von Robotern spezialisiert hat. „Es ist auch für die Benutzer wirklich toll, weil sie sehen können, wohin sich der Roboter bewegen und was er tun wird. Es macht alles verständlicher und heißt, dass man sehen kann, was passiert, bevor der Roboter in eine Wand fährt oder etwas anderes passiert.“

Anzeige
Anzeige

Genima nutzt die Fähigkeit von Stable Diffusion, Muster zu erkennen (etwa zu wissen, wie eine Tasse aussieht, weil sie beispielsweise auf Bildern von Tassen trainiert wurde), und verwandelt das Modell dann in eine Art Agent für den Roboter – ein System zur Entscheidungsfindung. Zunächst hatten die Forscher Stable Diffusion so eingestellt, dass sie Daten von Robotersensoren auf Bilder, die von den Kameras aufgenommen wurden, legen können.

Das System rendert dann die gewünschte Aktion, wie das Öffnen einer Schachtel, das Aufhängen eines Schals oder das Aufheben eines Notizbuchs, in eine Reihe von farbigen Kugeln über das Bild. Diese Kugeln teilen dem Roboter mit, wohin sich sein Gelenk in einer Sekunde in der Zukunft bewegen soll.

Anzeige
Anzeige

Im zweiten Teil des Prozesses werden diese Kugeln in Aktionen umgewandelt. Das Team erreichte dies durch die Verwendung eines anderen neuronalen Netzwerks namens ACT, das auf denselben Daten abgebildet wird. Dann verwendeten sie Genima, um 25 Simulationen und neun reale Manipulationsaufgaben mit einem Roboterarm durchzuführen. Die durchschnittliche Erfolgsquote lag bei 50 beziehungsweise 64 Prozent.

Genaugikeit muss verbessert werden

Obwohl diese Erfolgsquoten nicht besonders hoch sind, sind Shridhar und das Team optimistisch, dass die Geschwindigkeit und Genauigkeit des Roboters verbessert werden kann. Sie sind besonders daran interessiert, Genima auf KI-Modelle zur Videoerzeugung anzuwenden, die einem Roboter helfen könnten, eine Abfolge zukünftiger Aktionen vorherzusagen, anstatt nur eine.

Die Forschung könnte besonders nützlich sein, um Haushaltsroboter darin zu trainieren, Wäsche zu falten, Schubladen zu schließen und andere Aufgaben zu erledigen.

Anzeige
Anzeige

Der generalisierte Ansatz bedeutet jedoch, dass dieser nicht auf eine bestimmte Art von Maschine beschränkt ist, sagt Zoey Chen, Doktorandin an der University of Washington, die bereits früher Stable Diffusion zur Generierung von Trainingsdaten für Roboter verwendet hat, aber nicht an dieser Studie beteiligt war.

„Dies ist eine wirklich spannende neue Richtung“, sagt sie. “Ich denke, dass dies eine allgemeingültige Methode werden kann, um Daten für alle Arten von Robotern zu trainieren.“ Mit Videogeneratoren wird sie noch besser.

Der Artikel stammt von Rhiannon Williams. Sie ist Redakteurin bei der US-amerikanischen Ausgabe von MIT Technology Review und arbeitet dort als Nachrichtenreporterin für Technikthemen.
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige