Anzeige
Anzeige
News

Imagebind: Metas OpenSource-KI soll realistische Umgebung generieren

Meta hat den Code zum Imagebind-KI-Tool veröffentlicht. Das Tool soll Szenen so generieren können, wie Menschen sie wahrnehmen.

2 Min.
Artikel merken
Anzeige
Anzeige
Die fünf Modalitäten des Imagebind-Tools. (Screenshot: Meta/t3n)


Meta hat das KI-Tool Imagebind auf Github öffentlich zugänglich und es damit zu einem OpenSource-KI-Tool gemacht. Es soll Informationen ähnlich wie Menschen verknüpfen und neben Bildern auch Geräusche, Dreidimensionalität und Temperaturdaten zu einer Szene verknüpfen. Während das Ziel VR und das Metaverse sind, könnte es der Barrierefreiheit dienen.

Was ist Imagebind?

Mit Imagebind hat Meta ein Tool öffentlich zugänglich gemacht, das Datenpunkte so miteinander verknüpft, wie Menschen die Welt wahrnehmen oder sich eine Umgebung vorstellen. Während Tools wie Dall-E oder Stable Diffusion Text in Bild umwandeln, soll Imagebind dabei deutlich mehr Ebenen ausgeben können: Es soll Text, Bild, Video, Audio, Tiefe und damit Dreidimensionalität, Temperaturdaten und Bewegungsdaten miteinander verbinden können. Vor allem soll das geschehen können, ohne, dass alle Möglichkeiten einzeln trainiert werden müssen.

Anzeige
Anzeige

Imagebind ist dabei in einem frühen Stadium und soll langfristig in der Lage sein, komplexe Umgebungen aus Input wie Text, Bild oder Audioaufnahmen oder einer Kombination aus diesen drei Möglichkeiten zu generieren.

Bisher gibt es sechs Modalitäten: Tiefe, Text, Audio, Infrarotstrahlung und damit Wärmebilder und Bewegung beziehungsweise Position. Allerdings, so Ishan Misra, Rohit Girdhar und Alaaeldin El-Nouby im Meta-Blogbeitrag, könnten mehr Modalitäten „reichhaltigere, menschenzentrierte KI-Modelle ermöglichen“. Sie haben dabei Berührung, Sprache, Geruch und fMRI-Signale des Gehirns im Blick.

Anzeige
Anzeige

Was soll daran menschlich sein?

Steht ein Mensch an einer Kreuzung, nimmt das Hirn ganz automatisch alle Eindrücke auf: das Wetter, Bewegungen von Menschen, Autos, Vögeln, den Wind, die Häuser, die Ampeln, Fußgängerüberwege, Pfützen, das Café an der Ecke und wie gut besucht es ist.

Gleichzeitig wird, je nach Bedürfnis in der Situation bewertet, was gerade relevant ist – und daraus werden Informationen abgeleitet. Aus den Geschwindigkeiten der Autos wird geschätzt, ob sie am Zebrastreifen halten werden. Je mehr Leute im Café sitzen, umso höher ist die Wahrscheinlichkeit, keinen Platz zu finden oder dass es längere Wartezeiten gibt. Je bewusster eine Umgebung wahrgenommen wird, umso besser können Gefahren vermieden werden und Menschen sich den Gegebenheiten anpassen – ein evolutionärer Vorteil.

Anzeige
Anzeige

Computer wiederum ahmen immer mehr die multisensorische Verbindungen von Tieren nach – diese können sie andersherum nutzen, um Szenerien darzustellen, die auf begrenztem Input basieren. Während ein Prompt wie „ein Basset im Gandalf-Outfit, der auf einem Strandball balanciert“ bei Midjourney und Co zu einem bizarren Bild führen kann, könnte Imagebind ein Video generieren – inklusive Geräuschen, der Umgebung (ein Wohnzimmer oder ein Strand), die Temperatur und die präzisen Positionen vom Hund und anderen Lebewesen in der Szene.

VR, Metaverse, Content Creation, Gaming – und Barrierefreiheit?

Wie die Entwickler:innen im Meta-Blog schrieb: Aus einem Bild und einem Geräusch könnten so einfach Animationen entwickelt werden. Das passt zu Metas Ambitionen im Bereich VR, Mixed Reality und dem Metaverse. Ein VR-Headset beispielsweise könnte irgendwann komplett realistische 3D-Szenerien mit Geräuschen und Bewegungen erstellen.

Anzeige
Anzeige

Weitere Einsatzmöglichkeiten wären beispielsweise das Spieldesign: Spiele-Entwickler:innen könnten sich damit viel Beinarbeit im Game Design sparen. Content Creator:innen wiederum könnten immersive Szenen mit realistischen Geräuschkulissen schaffen. Mehr als nur für Influencer:innen könnte das verschiedensten Produkten dienen – denken wir nur an Meditationsapps, Coaching-Situationen, Werbung und mehr.

Multimedia-Beschreibungen in Echtzeit durch Imagebind könnten zudem Menschen mit Seh- oder Höreinschränkungen dabei helfen, die direkte Umwelt umfassender wahrzunehmen.

Bisher noch ohne Geräusche und Temperatur: Dall-E malt unsere Headlines

Dall-E malt unsere Headlines Quelle: DALL·E
Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige