Microsoft Magma: Dieses KI-Modell steuert Roboter und Software – was daran so besonders ist

Magma heißt das neue KI-Modell von Microsoft, das in Zusammenarbeit mit Forscher:innen von mehreren Universitäten in den USA entstanden ist. Der Name Magma steht dabei für „Multimodal Agentic Model at Microsoft Research“. Laut Microsoft handelt es sich dabei um das erste multimodale Modell, das Inputs nicht nur verstehen kann, sondern mit den Inputs planen und daraufhin agieren kann.
Microsoft: Was kann das KI-Modell Magma?
Zwar können andere KI-Modelle ebenfalls multimodale Inputs verarbeiten und dadurch Aktionen ausführen, doch benötigen sie dazu oft mehrere Modelle – etwa eines, um die Inputs zu verstehen und eines, um Roboter oder Software-Anwendungen zu steuern. Magma soll all diese Fertigkeiten in nur einem Modell vereinen. So soll Magma laut Microsoft „die Brücke zwischen verbaler, räumlicher und temporaler Intelligenz schlagen, um komplexe Aufgaben und Situationen zu lösen“.
Microsoft gibt mehrere Beispiele, welche Fertigkeiten Magma besitzt. Zunächst kann das KI-Modell Software für Nutzer:innen steuern. Sie können die KI auf einem Smartphone anweisen, den Flugmodus zu aktivieren. Magma navigiert dann zurück zum Homescreen, ruft die Schnelleinstellungen mit einem virtuellen Swipe auf und drückt dann den entsprechenden Button für den Flugmodus. In einem anderen Beispiel ruft Magma den Chrome-Browser auf, um Wetterinformationen für eine bestimmte Stadt abzufragen.
Bei der Steuerung von Robotern ist Magma in der Lage, Objekte aufzuheben und sie an vorgegebenen Orten präzise abzulegen. Auch das Verschieben von Objekten, ohne sie aufzuheben, ist möglich. So verschiebt der Roboterarm, gesteuert von Magma, etwa ein Tuch auf einem Küchentresen, damit dieser mittig auf der Oberfläche liegt.
Zu guter Letzt zeigt Microsoft, wie Magma Video-Input aus Alltagssituationen mit Menschen verarbeitet. Denkbar wäre hier etwa, dass Magma in einer Brille zum Einsatz kommt und User:innen der KI Fragen zum aktuellen Geschehen vor ihnen stellen können. So zeigt Microsoft ein Schachspiel, bei dem der User fragt, welcher Zug am sinnvollsten wäre. Oder die User:innen können in ihrem Wohnzimmer sitzen und die KI fragen, wie sie sich die nächsten Stunden beschäftigen können. Anhand der erkannten Objekte schlägt Magma dann etwa vor, den Fernseher anzuschalten, ein Buch zu lesen oder den Ausblick aus dem Fenster zu genießen.
Magma: Training, Benchmarks und Probleme
Microsoft hat Magma zunächst mit einer Reihe von Bildern, Videos sowie Daten von Robotern trainiert. Dabei kamen zwei besondere Techniken zum Einsatz. Set-of-Mark dient dabei der Ausführung von Aktionen. Dabei werden Objekte im Video von der KI mit einer Nummer versehen. So bekommen etwa einzelne Elemente in einem User-Interface eine eigene Nummer. Dadurch kann die KI gezielt die notwendigen Elemente ansteuern. Ähnlich verhält es sich mit Objekten, die der von Magma gesteuerte Roboter bewegen soll.
Die zweite Technik, Trace-of-Mark, ist für die Planungsphase der KI wichtig. Dabei lernt die KI Bewegungsmuster von Videodaten. So soll das Modell „zukünftige Zustände erkennen“, bevor es agiert. Als Beispiel zeigt Microsoft, dass Magma per Roboterarm eine Orange zu einer Wasserflasche bewegen soll. Die KI plant dann insgesamt 14 Schritte, über die die Objekte näher zueinander gebracht werden können.
Microsoft zeigt in dem Paper zudem Benchmark-Ergebnisse für Magma. Diese zeigen, dass das neue KI-Modell in vielen Bereichen mit Konkurrenten wie GPT-4V oder Qwen-VL mithalten kann. Allerdings sollten Benchmarks von den Entwickler:innen der KI immer mit etwas Skepsis betrachtet werden.
Immerhin gibt Microsoft aber offen zu, dass Magma noch ein paar Limitierungen hat. So scheitert die KI wohl bei sehr komplexen Aufgaben, die viele Schritte in sich vereinen. Künftig will Microsoft aber weiter daran feilen. Im nächsten Schritt wollen die Forscher:innen aber zunächst die Inferenz- und Trainingsdaten der KI über Github veröffentlichen.