„Wie male ich dieses Bild?“: Apples neue KI-Modelle verstehen Videos und helfen proaktiv

Apple Intelligence könnte durch zwei neue KI-Modelle zusätzliche Funktionen bekommen. (Foto: Camilo Concha/Shutterstock)
Apple Intelligence lässt aktuell noch etwas zu wünschen übrig. Andere KI-Tools bieten deutlich mehr Funktionen und sind bei ihren Antworten auch etwas genauer. Was bei Apple Intelligence funktioniert und was nicht, haben wir euch im verlinkten Test herausgefunden. Apple ist sich der Probleme offenbar bewusst und arbeitet schon jetzt an neuen KI-Modellen, die den Funktionsumfang des Tools künftig erweitern könnten.
Apple Intelligence: Neue Modelle für Videoanalyse und Fotogrammetrie
Die neuen Modelle hat Apples Abteilung namens Machine Learning Research jetzt vorgestellt. Das erste Modell trägt den Namen Matrix3D und soll die Fotogrammetrie deutlich vereinfachen. Normalerweise müssen für 3D-Scans von Objekten zahlreiche Bilder aus verschiedenen Winkeln aufgenommen und im Anschluss zu einem 3D-Objekt zusammengesetzt werden. Matrix3D soll diese Aufgaben vereinfachen, da nur zwei bis drei Bilder eines Gegenstands für die Erstellung benötigt werden.
Das KI-Modell übernimmt laut Apple ebenfalls sämtliche Unteraufgaben der Fotogrammetrie wie das Einschätzen der Position und der Orientierung sowie das Ermitteln der Tiefe des Objekts. Dabei werden multimodale Daten aus den Bildern selbst, aber auch aus den Kameraparametern verarbeitet. Apple hat Matrix3D mit einer Technik namens „Masked Learning“ trainiert. Das bedeutet, dass das Modell schon beim Training nur wenige Aufnahmen eines Objekts sowie Daten über die Position, Orientierung und Tiefe erhalten hat, um daraus ein 3D-Modell zu erschaffen.
Das zweite KI-Modell, das für Apple Intelligence interessant sein könnte, trägt den Namen Stream Bridge. Apple beschreibt das Tool als „proaktiven Streaming-Assistenten“. Schaut ihr euch etwa über die Apple Vision Pro ein Video an, analysiert Stream Bridge das Video in Echtzeit. Solltet ihr eine Frage zu dem Video haben, könnt ihr sie der KI direkt stellen. So könntet ihr die KI etwa fragen, was auf einem Schild in dem Clip steht, falls ihr es selbst nicht genau erkennen könnt.
Der proaktive Teil von Stream Bridge zeigt sich bei anderen Aufgaben. Die KI ist auch in der Lage, eure Umgebung über eine Kamera zu analysieren. Sollten Apple-Vision-Pro-User:innen etwa Hilfe benötigen, ein Bild zu malen, können sie die KI fragen: „Wie male ich dieses Bild?“. Stream Bridge gibt dann selbstständig für jeden Schritt Anweisungen. Die User:innen müssen nicht immer wieder erneut Nachfragen stellen, welche neuen Elemente sie hinzufügen oder wie sie diese gestalten könnten.
Wann und ob diese Funktionen letztlich in Apple-Produkten mit Apple Intelligence landen, lässt sich schwer abschätzen. Die neuen KI-Modelle haben gerade erst das Entwicklungsstadium verlassen. Denkbar wäre, dass Apple die neuen Modelle in künftige Produkte wie eine zweite Apple Vision Pro oder in kommende iPhone-Generationen integriert.