Bild-KI begeistern schon seit einiger Zeit Menschen im Internet. Sie erschaffen mal mehr und mal weniger realistische Bilder aus den Texteingaben der Nutzer. Eine der Bekanntesten davon dürfte Dall-E Mini sein, da ihr sie frei nutzen könnt. Die Ergebnisse davon sind oft gruselig, aber auch faszinierend.
Neben Dall-E hat auch Google mit Imagen eine KI gebaut, die aus Texteingaben eigene Bilder erstellt. Diese ist allerdings noch nicht öffentlich verfügbar, Google hat aber schon einige Bilder veröffentlicht, die von der KI erstellt wurden. Zum Beispiel einen Corgi in einem Sushi-Haus.
Meta zieht nach und will es besser machen
Diesen Trend will Meta sich nicht entgehen lassen. Neben Facebook, Instagram, dem Metaverse und mehr arbeitet das Unternehmen nun auch an seiner eigenen Bild-KI. Die soll etwas anders funktionieren als die KI der Konkurrenz.
Der Prozess ist nämlich gar nicht so simpel. Die KI muss hart arbeiten, bevor sie ein gutes oder annehmbares Bild mit einfachen Texteingaben erstellen kann. Zum einen muss sie verstehen, wovon ihr überhaupt redet. Sie muss also wissen, was ein Pferd ist, ein Haus, ein Corgi und so weiter.
Zum anderen muss die KI dazu noch den eingegebenen Satz oder die Wortfolge verstehen. Sie muss also wissen, wie sich diese Objekte zueinander verhalten. Wenn wir schreiben „Ein Mensch reitet ein Pferd“, dann werden die meisten ein relativ klares Bild im Kopf haben. Die KI muss allerdings erst einmal herausfinden, was das bedeuten soll, und lernen, wie das aussieht, bevor sie ein akkurates Bild ausspucken kann.
Meta gibt mehr Input
Metas Bild-KI nennt sich Make-A-Scene und wird in diesem Forschungsbericht beschrieben. Einer der Kernunterschiede von Metas KI zu der Konkurrenz ist, dass sie nicht nur mit Text arbeitet, sondern auch mit groben Zeichnungen. So kann die KI einfacher verstehen, was gemeint ist, und soll bessere Bilder ausspucken als die Generatoren der Konkurrenz.
Ein Beispiel haben wir euch aus dem Forschungsbericht herausgesucht. Auf der linken Seite seht ihr den Input, in diesem Fall eine grobe Zeichnung von einem Oktopus auf einem Fahrrad und ein Text: „a painting/illustration of an octopus riding a high wheel bike with pizza wheels on a tiled road by broccoli fields/ at sunset“.
Grob übersetzt heißt das „ein Gemälde/eine Illustration eines Oktopus, der auf einem Hochrad mit Pizzarädern auf einer gepflasterten Straße an Brokkolifeldern/bei Sonnenuntergang fährt“. Was der Generator dazu ausgespuckt hat, seht ihr rechts daneben.
KI befindet sich in der Testphase
Momentan ist die Make-A-Scene-KI aber noch nicht öffentlich verfügbar. Laut Engadget wird sie gerade von KI-Künstlern getestet, welche ihr Feedback geben sollen, damit sie weiterentwickelt werden kann. Wann und ob die KI für alle nutzbar sein wird, ist momentan noch unklar.