Apple zeigt, wozu seine KI fähig ist: So könnt ihr die 4M-Demo ausprobieren
Apple hat eine Demoversion seines KI-Modells 4M veröffentlicht. Das Kürzel 4M steht für „Massively Multimodal Masked Modelling“. Auf der Plattform Hugging Face, wo die Demo verfügbar ist, wird das Modell als ein Framework beschrieben, das zum Trainieren multimodaler Any-to-Any-Grundlagenmodelle dient. Es ist skalierbar, Open Source und arbeitet über Dutzende Modalitäten und Aufgaben hinweg.
Einfach ausgedrückt kann das Modell Daten über verschiedene Disziplinen hinweg manipulieren. Es kann beispielsweise Bilder aus Texten generieren, 3D-Szenen mit natürlicher Sprache bearbeiten oder komplexe Objekte in Bildern erkennen.
Die benötigten Daten für das Modell wurden bereits vor einigen Monaten auf GitHub veröffentlicht. Mit der Demoversion auf Hugging Face wird die Nutzung nun noch einfacher.
So nutzt ihr die Demo
Wenn ihr die Demo ausprobieren möchtet, könnt ihr dies direkt auf Hugging Face tun. Die Demo sagt euch alle Modalitäten aus einer RGB-Eingabe voraus, in der Regel ein Bild. Ihr könnt ein Bild hochladen, mit der Webcam aufnehmen oder aus der Zwischenablage einfügen.
Mit einem Druck auf den Button „Predict with 4M-21 XL“ versucht das Modell, alle Modalitäten des Bildes zu erkennen. Dazu gehören unter anderem die RGB-Ebene, die Tiefen, die Farbpalette sowie Objekte wie Menschen, Fenster und Wände. Zudem erstellt es eine Überschrift für das Bild, erkennt Metadaten, und weitere Ebenen.
4M zeigt multimodale Fähigkeiten
Dadurch zeigt die Demo, dass die KI multimodale Ebenen in Bildern erkennen kann. Praktisch könnte das Modell verwendet werden, um Apples Software neue Funktionen zu verleihen, wie zum Beispiel die Bearbeitung von Bildern und Videos mit natürlicher Sprache. Die Demo gibt einen Ausblick darauf, was Apples KI-Modell leisten kann.