KI-Roboter sieht wie ein Mensch: Meta stellt I‑Jepa vor

News

KI-Roboter sieht wie ein Mensch: Meta stellt I‑Jepa vor

Ein neues Computer-Vision-Model von Meta kann Bilder vervollständigen und so die Welt wahrnehmen. Das soll näher an der menschlichen Art und Weise sein, wie wir unsere Umgebung sehen.

Von Kay Nordenbrock

14.06.2023, 15:50 Uhr • 2 Min.

KI-Roboter sieht wie ein Mensch: Meta stellt I‑Jepa vor — Das Modell sieht ähnlich wie ein Mensch. (Foto: Shutterstock/Artem Oleshko)

Meta hat ein Computer-Vision-Model namens Image Joint Embedding Predictive Architecture (I‑Jepa) vorgestellt. Damit sollen KI-gesteuerte Roboter die Welt so ähnlich wahrnehmen können wie Menschen. Das ist effizienter als bisherige Methoden und liefert bessere Ergebnisse.

Wie I‑Jepa genau funktioniert, erklärt Meta in einem Artikel auf Meta AI und in der dazugehörigen Studie. Wie der Name bereits vermuten lässt, sieht die KI mit dem Modell vorausschauend.

Sie kann also anhand von unvollständigen Bildern „erahnen“ oder errechnen, wie der Rest höchstwahrscheinlich aussehen wird. Meta gibt dafür vier Beispiele von unfertigen Bildern, auf denen jeweils ein Teil fehlt. Es fehlt etwa das Gesicht des Hundes, die Beine des Wolfs und so weiter. Die Zeichnungen in den blauen Kästen sind durch I‑Jepa vervollständigt worden.

I‑Jepa kann Bilder vervollständigen. (Foto: Meta)

I-Jepa kann seine Umgebung nach und nach verstehen

Das Modell kann also fehlende Informationen in Bildern ergänzen und so vorhersagen, wie das Bild aussehen sollte. So ähnlich bauen sich auch menschliche Augen die Welt um sich herum auf. Die Augen können sich nicht zu jedem Zeitpunkt auf alles konzentrieren, was sie im Sichtfeld haben, das menschliche Gehirn ergänzt den wahrgenommenen Eindruck.

Der größte Unterschied zwischen I‑Jepa und anderen Modellen ist, dass das Modell von Meta auf abstrakte Weise lernt und das wahrscheinlichste Erscheinungsbild darstellen kann. Andere Modelle arbeiten hier auf Pixelbasis und füllen jedes Detail aus.

I‑Jepa füllt nur die Lücken, die es braucht, um zu verstehen, worum es sich handelt. Laut Meta führt das zu einem Lernprozess, der I‑Jepa die Umgebung um sich herum nach und nach verstehen lässt. Andere Modelle können das nicht.

Empfehlungen der Redaktion

News

ChatGPT für Klänge: Neue Meta-KI erzeugt Musik aus Textbeschreibungen

News

Kaum Quest-Headsets und VR-Büros: Meta-Mitarbeiter meiden das Metaverse

News

Facebook-Mutter Meta stoppt den Umsatzschwund

Effizienter und bessere Ergebnisse

Durch diese spezielle Funktionsweise soll I‑Jepa nicht nur besser sein als andere Modelle, sondern auch deutlich effizienter arbeiten. Dafür gibt Meta ein Beispiel: Ein visuelles Transformatormodell mit 632 Millionen Parametern wurde mit 16 A100 GPUs innerhalb von 72 Stunden trainiert. Damit erreichte es eine Low-Shot-Klassifizierung in Imagenet.

Laut Meta brauchen andere Modelle dafür zwei- bis zehnmal so viele GPU-Stunden und produzieren höhere Fehlerquoten.

Meta hat das Modell als Open-Source-Code veröffentlicht und möchte es genauer auf der Conference on Computer Vision and Pattern Recognition vom 18. bis zum 22. Juni in Vancouver, Kanada, vorstellen.

Mehr zu diesem Thema

MIT Technology Review Künstliche Intelligenz Roboter Meta

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren