Anzeige
Anzeige
News

Gekritzel statt Sprachbefehl: KI-Forscher wollen Roboter mit Hilfe von Skizzen steuern

Forscher:innen der Stanford University und von Google Deepmind haben mit RT-Sketch ein Modell entwickelt, das Skizzen nutzt, um Roboter zu steuern. Das Gekritzel funktioniert oft besser als Sprachbefehle und realistische Bilder.

2 Min.
Artikel merken
Anzeige
Anzeige

Skizzen steuern Roboter: Ikea-Anleitung als Inspiration für RT-Sketch. (Bild: Midjourney/ t3n)

Die jüngsten Fortschritte bei Sprachmodellen und Bild-KI-Systemen haben die Entwicklung von Robotern ermöglicht, die sich mit Sprach- beziehungsweise Textbefehlen oder über Bildvorgaben steuern lassen. Diese Art der Steuerung hat aber ihre Grenzen.

Anzeige
Anzeige

Skizzen statt Textbefehle oder Bildanweisungen

So können mehrdeutige Textbefehle die Roboter verwirren, ebenso wie realistische Bilder mit einer zu großen Anzahl von – für die Aufgabe nicht notwendigen – Details. Manchmal sind zudem keine Bilder vorhanden, auf denen die gewünschte Handlungsaufforderung zu sehen ist.

Abhilfe soll da jetzt ein von Forscher:innen der Stanford University und Google Deepmind entwickeltes System schaffen. Wie der Name schon andeutet, setzt RT-Sketch auf Skizzen, um Roboter bestimmte Aufgaben umsetzen zu lassen.

Anzeige
Anzeige

Technologie von Ikea-Bauanleitungen inspiriert

Die Idee der Steuerung per Skizze kam den Forscher:innen, als sie überlegten, wie sie Roboter dazu bringen könnten, Ikea-Bauanleitungen zu interpretieren und entsprechend umzusetzen.

Skizzen Roboter Ikea

Skizzen steuern Roboter: Ikea-Anleitung als Inspiration für RT-Sketch. (Foto: Lidero/Shutterstock)

„Bei solchen räumlich präzisen Aufgaben ist die Sprache oft sehr unklar, und ein Bild der gewünschten Szene ist nicht im Vorhinein verfügbar“, erklärt Studienautorin Priya Sundaresan von der Stanford University gegenüber Venturebeat.

Anzeige
Anzeige

Skizzen, so das Forschungsteam, sind dagegen einfach, leicht zu sammeln und reich an Informationen. Sie liefern etwa räumliche Informationen und spezifische Details, die in sprachlichen oder Bildanweisungen nur schwer zu vermitteln wären. Gleichzeitig fällt es Robotersystemen dadurch leichter, zu erkennen, welche Objekte für eine Aufgabe relevant sind.

RT-Sketch basiert auf Deepmind-Modell

RT-Sketch basiert auf dem Deepmind-Modell Robotics Transformer 1, das normalerweise Sprachanweisungen in Befehle für Roboter umwandelt. Das geänderte System ersetzt jetzt Eingaben in natürlicher Sprache durch visuelle Zielvorgaben wie Skizzen und Bilder.

Anzeige
Anzeige

Das Modell wurde mit 80.000 Aufnahmen von VR-gesteuerten Handlungen gefüttert, die etwa das Bewegen von Objekten oder das Öffnen und Schließen von Schubladen beinhalteten. Zu Trainingszwecken erstellten die Forscher:innen dann Skizzen aus einigen hundert Videos – und trainierten eine KI darauf, aus diesen Bildern Skizzen zu fertigen.

KI zeichnet Skizzen aus Videobildern

So trainiert, kann RT-Sketch ein bestimmtes Bild aus einem Video nehmen und daraus eine Skizze als Anweisung für den Roboter zeichnen, wie etwa bestimmte Objekte angeordnet werden sollen. Die Skizzenanweisung wird anschließend in einen spezifischen Roboterbefehl umgewandelt.

Sora: Das sind die besten Clips von OpenAIs Video-KI Quelle:

Den Forscher:innen zufolge kann RT-Sketch mit Systemen, die auf Sprachbefehle, Texteingaben oder Bildanweisungen basieren, mithalten. In vielen Szenarien kann die Anweisung per Skizze sogar erfolgversprechender sein. Jetzt soll das Modell um Anweisungen per Pfeile oder gekritzeltem Text erweitert werden.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige