
Links: Foto, rechts: 3D-Modell des Kult-Autos Kitt. (Bild: Nvidia)
Auf der Basis der Gan-Technologie (Generative Adversarial Network) arbeitet Nvidia seit Jahren an immer interessanteren Anwendungsfällen. Mit dem neuen Ganverse-3D stellen die Forscher des Chip-Riesen nun eine künstliche Intelligenz vor, die mehrere 2D-Fotos zu einem 3D-Modell verarbeiten kann. Ganverse-3D basiert auf der 3D-Entwicklungsplattform Omniverse.
Überschaubares Training zeitigt erstaunliche Ergebnisse
Dazu wird Ganverse-3D mit 2D-Fotos des zu erzeugenden Modells gefüttert, die aus möglichst vielen Blickwinkeln aufgenommen wurden. Trainiert hat Nvidia seine neue Software an Autos, Pferden und Vögeln. Über Tausende von Bildern und 200.000 Iterationen trainierte das Deep-Learning-Netzwerk auf vier Tesla V100 rund 120 Stunden lang.
Dabei sehen Modelle von Autos deutlich realistischer aus als solche von Tieren. Neben dem plastischen Modell werden auch die Texturen mitgeneriert. Bei Autos kann das System sogar Komponenten erkennen. Damit lassen sich später Funktionen anbinden, etwa das Öffnen von Türen oder das Drehen der Räder.
Bei einem der Trainingsautos handelt es sich um das sprechende Auto Kitt aus der Achtzigerjahre-Serie Knightrider. Hier stand eine ganze Reihe an 2D-Stills zur Verfügung. In einem kurzen Video zeigt Nvidia das entstandene 3D-Modell in Aktion:
Bei den 3D-Modellen der Tiere ist der artifizielle Charakter auf den ersten Blick zu erkennen. Sie wirken wie aus Holz geschnitzt. Laut Nvidia liegt das vor allem an nicht ausreichenden Trainingsdaten. So habe es nur wenige Bilder gegeben, die die Tiere von oben oder unten gezeigt hätten. Entsprechend sei das neuronale Netz nicht in der Lage gewesen, zu lernen, wie Tiere eben von oben oder unten aussehen. Hier will Nvidia nachbessern.
Professioneller Einsatz steht noch aus – KI wird verbessert
Letztlich soll sich Ganverse-3D an Spieleentwickler, Architekten und 3D-Designer richten. Das sind Zielgruppen, die ansonsten entweder ganz ohne Vorlage arbeiten oder ihre Modelle mittels Fotogrametrieverfahren erstellen. Von den bis zu mehreren Tagen Arbeit bleiben unter Einsatz des Ganverse-3D von Nvidia maximal wenige Sekunden übrig.
Anders als im Training soll dann ein einziges 2D-Foto ausreichen, um ein vollständiges 3D-Modell zu generieren. Im laufenden Training soll sich Nvidias neue Software nun selbst weiter verbessern. Wann die KI für den Echtzeiteinsatz verfügbar sein wird, hat Nvidia nicht kommuniziert.