Intel stellt KI-Modell vor, das 360-Grad-Bilder aus Text generiert

Der US-amerikanische Technik- und Chipriese Intel hat das sogenannte Latent Diffusion Model for 3D (LDM3D) in Kooperation mit Blockade Labs vorgestellt. Blockade Labs sieht sich selbst als eine Art Werkzeug, das kreative „Zauberer“ ermächtigt, neue Erfahrungen zum Leben zu erwecken.
Mit anderen Worten: Sie bieten eine Plattform, die es Kreativen ermöglicht, ihre Visionen in virtuelle Realität umzusetzen. Das neuartige Latent Diffusion Model von Intel und Blockade Labs nutzt KI, um realistische visuelle 3D-Inhalte zu erstellen.
Intel erklärt den Übergang von 2D zu 3D
„Ein Feld, in dem es in den letzten Jahren erhebliche Fortschritte gegeben hat“, schreibt Intel in einer Pressemitteilung, „ist der Bereich der Computer Vision, insbesondere der generativen KI. Viele der heutigen fortschrittlichen generativen KI-Modelle sind jedoch darauf beschränkt, nur 2D-Bilder zu erzeugen.“
LDM3D soll nun das branchenweit erste Modell sein, das eine Tiefenkarte erzeugt, um 3D-Bilder mit 360-Grad-Ansichten zu erstellen. Intel schreibt, die Neuerung habe das Potenzial, „Inhalte, Metaverse-Anwendungen und digitale Erlebnissen zu revolutionieren und eine Vielzahl von Branchen zu verändern“.
LDM3D von Intel „spart Entwicklern viel Zeit“
Vasudev Lal, einer der Entwickler:innen, wird von Intel so zitiert: „Im Gegensatz zu bestehenden latenten stabilen Diffusionsmodellen ermöglicht es LDM3D den Benutzern, ein Bild und eine Tiefenkarte aus einem Text zu generieren, wobei fast die gleiche Anzahl von Parametern verwendet wird. Es bietet eine genauere, relative Tiefe für jedes Pixel in einem Bild im Vergleich zu Standard-Nachbearbeitungsmethoden für die Tiefenschätzung und spart Entwicklern viel Zeit bei der Entwicklung von Szenen.“
Vor allem die Unterhaltungsbranche soll von der Neuerung profitieren. Das Modell soll die Textbeschreibung zum Beispiel eines ruhigen tropischen Strandes, eines modernen Wolkenkratzers oder eines Science-Fiction-Universums in ein detailliertes 360-Grad-Panorama verwandeln können.
LDM3D von Intel: Unterhaltungsbranche soll profitieren
Das ermögliche innovative Anwendungen für Branchen, die von Unterhaltung und Spielen über Innenarchitektur und Immobilienangebote bis hin zu virtuellen Museen und immersiven Virtual-Reality-Erlebnissen (VR) reichen.
Das neue Modell, so Intel, ebne den Weg für weitere Fortschritte in der generativen „Multiview-KI“ und „Computer Vision“. Intel wolle weiterhin die Nutzung generativer KI erforschen, um menschliche Fähigkeiten zu erweitern und ein starkes Ökosystem für „Open-Source-KI-Forschung und -Entwicklung“ aufzubauen, das den Zugang zu dieser Technologie demokratisiert.
Intel stellt LDM3D durch „Huggingface“ als Open Source zur Verfügung. Dies soll es KI-Forscher:innen und -Praktiker:innen ermöglichen, das System weiter zu verbessern und es für kundenspezifische Anwendungen zu optimieren.