Meta baut seine eigene Bild-KI, die nicht nur mit Texteingaben arbeitet

Könnten KI bald die besseren Künstler werden? Meta will's wissen. (Foto: Adobe Stock)
Bild-KI begeistern schon seit einiger Zeit Menschen im Internet. Sie erschaffen mal mehr und mal weniger realistische Bilder aus den Texteingaben der Nutzer. Eine der Bekanntesten davon dürfte Dall-E Mini sein, da ihr sie frei nutzen könnt. Die Ergebnisse davon sind oft gruselig, aber auch faszinierend.
Neben Dall-E hat auch Google mit Imagen eine KI gebaut, die aus Texteingaben eigene Bilder erstellt. Diese ist allerdings noch nicht öffentlich verfügbar, Google hat aber schon einige Bilder veröffentlicht, die von der KI erstellt wurden. Zum Beispiel einen Corgi in einem Sushi-Haus.
Diesen Trend will Meta sich nicht entgehen lassen. Neben Facebook, Instagram, dem Metaverse und mehr arbeitet das Unternehmen nun auch an seiner eigenen Bild-KI. Die soll etwas anders funktionieren als die KI der Konkurrenz.
Der Prozess ist nämlich gar nicht so simpel. Die KI muss hart arbeiten, bevor sie ein gutes oder annehmbares Bild mit einfachen Texteingaben erstellen kann. Zum einen muss sie verstehen, wovon ihr überhaupt redet. Sie muss also wissen, was ein Pferd ist, ein Haus, ein Corgi und so weiter.
Zum anderen muss die KI dazu noch den eingegebenen Satz oder die Wortfolge verstehen. Sie muss also wissen, wie sich diese Objekte zueinander verhalten. Wenn wir schreiben „Ein Mensch reitet ein Pferd“, dann werden die meisten ein relativ klares Bild im Kopf haben. Die KI muss allerdings erst einmal herausfinden, was das bedeuten soll, und lernen, wie das aussieht, bevor sie ein akkurates Bild ausspucken kann.
Metas Bild-KI nennt sich Make-A-Scene und wird in diesem Forschungsbericht beschrieben. Einer der Kernunterschiede von Metas KI zu der Konkurrenz ist, dass sie nicht nur mit Text arbeitet, sondern auch mit groben Zeichnungen. So kann die KI einfacher verstehen, was gemeint ist, und soll bessere Bilder ausspucken als die Generatoren der Konkurrenz.
Ein Beispiel haben wir euch aus dem Forschungsbericht herausgesucht. Auf der linken Seite seht ihr den Input, in diesem Fall eine grobe Zeichnung von einem Oktopus auf einem Fahrrad und ein Text: „a painting/illustration of an octopus riding a high wheel bike with pizza wheels on a tiled road by broccoli fields/ at sunset“.
Grob übersetzt heißt das „ein Gemälde/eine Illustration eines Oktopus, der auf einem Hochrad mit Pizzarädern auf einer gepflasterten Straße an Brokkolifeldern/bei Sonnenuntergang fährt“. Was der Generator dazu ausgespuckt hat, seht ihr rechts daneben.

Einen Oktopus auf einem Pizzfahrrad sieht man nicht alle Tage. (Foto: Cornell University / Make-A-Scene-Forschungsbericht)
Momentan ist die Make-A-Scene-KI aber noch nicht öffentlich verfügbar. Laut Engadget wird sie gerade von KI-Künstlern getestet, welche ihr Feedback geben sollen, damit sie weiterentwickelt werden kann. Wann und ob die KI für alle nutzbar sein wird, ist momentan noch unklar.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team