Pizza und Roboter, diese Kombi gibt es schon häufiger. So setzt beispielsweise die Fastfood-Kette Dominos auf Liefer-Roboter, in Sydney versorgt ein Automat die Kundschaft von Aldi mit frischer Pizza. Was diese technischen Helfer allerdings noch nicht können: die Pizzen nicht nur aufbacken oder ausliefern, sondern auch selbst zubereiten. Der Umgang mit Teig ist für Roboter bislang nämlich eine echte Herausforderung. Forschende haben vor Kurzem eine Technik entwickelt, wie Maschinen mit verformbaren Massen besser zurechtkommen sollen.
KI im Einsatz: Warum Teig ein Problem für Roboter ist
Eine künstliche Intelligenz, die mit einem anderen Objekt arbeitet, muss dieses gut einschätzen, um es händeln zu können. Welche Form hat das Objekt jetzt, welche Maße – und in welche Richtung könnte sich dieser Zustand während der Interaktion verändern? Für feste Gegenstände ist das meist gut abschätzbar. Weiche und verformbare Gegenstände – wie zum Beispiel ein Pizzateig – stellen künstliche Intelligenzen hingegen vor größere Schwierigkeiten. Hier gibt es zahlreiche Veränderungsmöglichkeiten, die sich im Vorfeld weniger gut vorhersehen lassen.
Genau dieser Problematik hat sich ein Team aus Wissenschaftler:innen des MIT, der Carnegie Mellon University und der University of California gewidmet. Das Endergebnis: eine Deep-Learning-Technik namens Diffskill. Neuronale Netzwerke ermöglichen das Erlernen einfacher Fähigkeiten, ein Planungsmodell hilft dann bei ihrer Kombination. So können Aufgaben gelöst werden, für die es mehrere Schritte und Werkzeuge braucht.
Nach entsprechendem Training kann Diffskill auf Basis von visuellen und tiefensensorischen Daten (RGB-D) verschiedene Teig-Aufgaben bewältigen.
Deep Learning: So funktioniert das Diffskill-System
Der sogenannte Skill-Abstractor lernt anhand von Trainingsbeispielen, wie Werkzeuge dabei helfen können, ein kurzfristiges Ziel zu erreichen. Die Beispiele – Teig mit einem Teigschaber verschieben, Teigklumpen mit einem Nudelholz ausrollen – werden ihm als RGB-D-Videos vorgelegt. Der Abstractor soll auf dieser Basis entscheiden, ob das gewünschte Ziel realisierbar ist oder nicht. Indem er seine Vorhersage schließlich mit dem tatsächlichen Ergebnis eines Simulators abgleicht, kann er lernen und seine Parameter optimieren.
Ein Variations-Auto-Encoder (VAE) hilft dem System, wichtige Informationen wie die Position des Teigs oder den Winkel des Nudelholzes herauszufiltern und nicht nur in Simulationen, sondern auch in der Realität zu erkennen.
Sind die benötigten Fähigkeiten vom Skill-Abstractor erlernt worden, legt das Planersystem fest, welche Fähigkeiten wie kombiniert werden müssen, um eine Aufgabe zu lösen. Auch hier kommt der Variations-Auto-Encoder zum Einsatz: Er prognostiziert, welcher Zwischenschritt im Prozess zu welchem Ergebnis führen dürfte. Indem alle Fähigkeiten- und Ergebnismöglichkeiten miteinander verrechnet werden, findet das Planungssystem heraus, welche Schrittfolge am besten geeignet ist, um das gesetzte Zeil zu erreichen.
Können Roboter also bald Pizza backen?
Bis Diffskill aber tatsächlich dafür sorgen könnte, dass Roboter Pizzaböden formen, dauert es wohl noch eine Weile. Die Machbarkeitsprognosen des Skill-Abstractors sind teilweise noch falsch positiv, bei mehrstufigen Planungsprozessen ist die Leistung von Diffskill zwar immer noch besser als die von anderen Systemen, nimmt aber deutlich ab.
Vom Pizzabacken per Roboter sei man „noch weit entfernt“, so der Hauptautor der Studie gegenüber The Next Web. „Bei der Steuerung, der Sim2Real-Übertragung und der Sicherheit gibt es noch verschiedene Herausforderungen. Aber wir sind jetzt zuversichtlicher, einige Aufgaben mit langem Zeithorizont anzugehen“ – und an den notwendigen Verbesserungen des Systems wird jetzt gearbeitet.