Anzeige
Anzeige
News
Verpasse keine News mehr!

Microsoft Magma: Dieses KI-Modell steuert Roboter und Software – was daran so besonders ist

Microsoft hat mit Magma ein neues KI-Modell vorgestellt. Das multimodale Modell soll visuelle Inputs und Sprache verstehen – und dadurch Software und Roboter steuern können.

3 Min.
Artikel merken
Anzeige
Anzeige
Microsoft hat eine neue KI geschaffen, die Software und Roboter steuern kann. (Bild: Shutterstock/Below the Sky)

Magma heißt das neue KI-Modell von Microsoft, das in Zusammenarbeit mit Forscher:innen von mehreren Universitäten in den USA entstanden ist. Der Name Magma steht dabei für „Multimodal Agentic Model at Microsoft Research“. Laut Microsoft handelt es sich dabei um das erste multimodale Modell, das Inputs nicht nur verstehen kann, sondern mit den Inputs planen und daraufhin agieren kann.

Anzeige
Anzeige

Microsoft: Was kann das KI-Modell Magma?

Zwar können andere KI-Modelle ebenfalls multimodale Inputs verarbeiten und dadurch Aktionen ausführen, doch benötigen sie dazu oft mehrere Modelle – etwa eines, um die Inputs zu verstehen und eines, um Roboter oder Software-Anwendungen zu steuern. Magma soll all diese Fertigkeiten in nur einem Modell vereinen. So soll Magma laut Microsoft „die Brücke zwischen verbaler, räumlicher und temporaler Intelligenz schlagen, um komplexe Aufgaben und Situationen zu lösen“.

Microsoft gibt mehrere Beispiele, welche Fertigkeiten Magma besitzt. Zunächst kann das KI-Modell Software für Nutzer:innen steuern. Sie können die KI auf einem Smartphone anweisen, den Flugmodus zu aktivieren. Magma navigiert dann zurück zum Homescreen, ruft die Schnelleinstellungen mit einem virtuellen Swipe auf und drückt dann den entsprechenden Button für den Flugmodus. In einem anderen Beispiel ruft Magma den Chrome-Browser auf, um Wetterinformationen für eine bestimmte Stadt abzufragen.

Anzeige
Anzeige

Bei der Steuerung von Robotern ist Magma in der Lage, Objekte aufzuheben und sie an vorgegebenen Orten präzise abzulegen. Auch das Verschieben von Objekten, ohne sie aufzuheben, ist möglich. So verschiebt der Roboterarm, gesteuert von Magma, etwa ein Tuch auf einem Küchentresen, damit dieser mittig auf der Oberfläche liegt.

Zu guter Letzt zeigt Microsoft, wie Magma Video-Input aus Alltagssituationen mit Menschen verarbeitet. Denkbar wäre hier etwa, dass Magma in einer Brille zum Einsatz kommt und User:innen der KI Fragen zum aktuellen Geschehen vor ihnen stellen können. So zeigt Microsoft ein Schachspiel, bei dem der User fragt, welcher Zug am sinnvollsten wäre. Oder die User:innen können in ihrem Wohnzimmer sitzen und die KI fragen, wie sie sich die nächsten Stunden beschäftigen können. Anhand der erkannten Objekte schlägt Magma dann etwa vor, den Fernseher anzuschalten, ein Buch zu lesen oder den Ausblick aus dem Fenster zu genießen.

Anzeige
Anzeige
Lokale KI: Mit diesen 6 Tools kein Problem Quelle: Midjourny / t3n

Magma: Training, Benchmarks und Probleme

Microsoft hat Magma zunächst mit einer Reihe von Bildern, Videos sowie Daten von Robotern trainiert. Dabei kamen zwei besondere Techniken zum Einsatz. Set-of-Mark dient dabei der Ausführung von Aktionen. Dabei werden Objekte im Video von der KI mit einer Nummer versehen. So bekommen etwa einzelne Elemente in einem User-Interface eine eigene Nummer. Dadurch kann die KI gezielt die notwendigen Elemente ansteuern. Ähnlich verhält es sich mit Objekten, die der von Magma gesteuerte Roboter bewegen soll.

Die zweite Technik, Trace-of-Mark, ist für die Planungsphase der KI wichtig. Dabei lernt die KI Bewegungsmuster von Videodaten. So soll das Modell „zukünftige Zustände erkennen“, bevor es agiert. Als Beispiel zeigt Microsoft, dass Magma per Roboterarm eine Orange zu einer Wasserflasche bewegen soll. Die KI plant dann insgesamt 14 Schritte, über die die Objekte näher zueinander gebracht werden können.

Anzeige
Anzeige

Microsoft zeigt in dem Paper zudem Benchmark-Ergebnisse für Magma. Diese zeigen, dass das neue KI-Modell in vielen Bereichen mit Konkurrenten wie GPT-4V oder Qwen-VL mithalten kann. Allerdings sollten Benchmarks von den Entwickler:innen der KI immer mit etwas Skepsis betrachtet werden.

Immerhin gibt Microsoft aber offen zu, dass Magma noch ein paar Limitierungen hat. So scheitert die KI wohl bei sehr komplexen Aufgaben, die viele Schritte in sich vereinen. Künftig will Microsoft aber weiter daran feilen. Im nächsten Schritt wollen die Forscher:innen aber zunächst die Inferenz- und Trainingsdaten der KI über Github veröffentlichen.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige