Es gibt Lego-Sets, die Kinder in ein paar Minuten zusammengebastelt haben, und dann gibt es solche, an denen Erwachsene tagelang sitzen und verzweifeln. Sie alle eint dabei die Bedienungsanleitung, ohne die die meisten wohl aufgeschmissen wären.
Eine der größten Herausforderungen, wenn es darum geht, dass Maschinen lernen, mit Lego zu bauen, ist die Interpretation der zweidimensionalen Bilder der 3D-Modelle in den traditionellen gedruckten Bedienungsanleitungen, die in den Sets mitgeliefert werden.
Forscher der Stanford Universität haben jetzt ein lernbasiertes Framework, das sie Manual-to-Executable-Plan-Network nennen, entwickelt, das aus einem Haufen Lego-Steine ein auf einer handelsüblichen Anleitung basierendes Lego-Modell basteln kann.
KI lernt, Anleitungen zu verstehen
Das neuronale Netzwerk muss nicht nur die 3D-Gestalt, -Form und -Struktur der einzelnen Teile, die im Handbuch für jeden Schritt extra erklärt werden, richtig interpretieren, sondern auch die Gesamtform der halbfertigen Modelle erkennen.
Die große Herausforderung ist dabei die Darstellung in der Anleitung, denn die Lego-Handbücher zeigen in vielen Schritten eine komplett andere Perspektive auf das Bauwerk als im vorherigen Step. Das Framework muss dann entschlüsseln, was es sieht und wie es mit dem 3D-Modell korreliert, das es bereits generiert hat.
Das Ziel dieser Forschung war es, die 2D-Bilder eines Lego-Handbuchs einfach in Montageschritte zu übersetzen, die eine Maschine funktional verstehen kann. Verwendet werden könnte die Forschung beispielsweise bei der Konvertierung alter Lego-Bedienungsanleitungen in die interaktiven 3D-Bauanleitungen, die jetzt in der mobilen Lego-App enthalten sind.
Denkbar ist auch ihr Einsatz, um ein besseres Verständnis der Übersetzung von 2D-Bildern in dreidimensionale Strukturen zu erhalten. Und wer weiß, vielleicht kann die KI eines Tages auch Ikea-Anleitungen verstehen.