Meta baut seine eigene Bild-KI, die nicht nur mit Texteingaben arbeitet

News

Meta baut seine eigene Bild-KI, die nicht nur mit Texteingaben arbeitet

Bisherige Bild-KI generieren die Kunstwerke aus Wörtern und Sätzen. Metas neue KI will das aber anders machen und gibt den Künstlern die Möglichkeit, weitere Eingabemethoden zu nutzen.

Von Kay Nordenbrock

14.07.2022, 15:50 Uhr • 2 Min.

Meta baut seine eigene Bild-KI, die nicht nur mit Texteingaben arbeitet — Könnten KI bald die besseren Künstler werden? Meta will's wissen. (Foto: Adobe Stock)

Bild-KI begeistern schon seit einiger Zeit Menschen im Internet. Sie erschaffen mal mehr und mal weniger realistische Bilder aus den Texteingaben der Nutzer. Eine der Bekanntesten davon dürfte Dall-E Mini sein, da ihr sie frei nutzen könnt. Die Ergebnisse davon sind oft gruselig, aber auch faszinierend.

Neben Dall-E hat auch Google mit Imagen eine KI gebaut, die aus Texteingaben eigene Bilder erstellt. Diese ist allerdings noch nicht öffentlich verfügbar, Google hat aber schon einige Bilder veröffentlicht, die von der KI erstellt wurden. Zum Beispiel einen Corgi in einem Sushi-Haus.

Meta zieht nach und will es besser machen

Diesen Trend will Meta sich nicht entgehen lassen. Neben Facebook, Instagram, dem Metaverse und mehr arbeitet das Unternehmen nun auch an seiner eigenen Bild-KI. Die soll etwas anders funktionieren als die KI der Konkurrenz.

Der Prozess ist nämlich gar nicht so simpel. Die KI muss hart arbeiten, bevor sie ein gutes oder annehmbares Bild mit einfachen Texteingaben erstellen kann. Zum einen muss sie verstehen, wovon ihr überhaupt redet. Sie muss also wissen, was ein Pferd ist, ein Haus, ein Corgi und so weiter.

Zum anderen muss die KI dazu noch den eingegebenen Satz oder die Wortfolge verstehen. Sie muss also wissen, wie sich diese Objekte zueinander verhalten. Wenn wir schreiben „Ein Mensch reitet ein Pferd“, dann werden die meisten ein relativ klares Bild im Kopf haben. Die KI muss allerdings erst einmal herausfinden, was das bedeuten soll, und lernen, wie das aussieht, bevor sie ein akkurates Bild ausspucken kann.

Meta gibt mehr Input

Metas Bild-KI nennt sich Make-A-Scene und wird in diesem Forschungsbericht beschrieben. Einer der Kernunterschiede von Metas KI zu der Konkurrenz ist, dass sie nicht nur mit Text arbeitet, sondern auch mit groben Zeichnungen. So kann die KI einfacher verstehen, was gemeint ist, und soll bessere Bilder ausspucken als die Generatoren der Konkurrenz.

Ein Beispiel haben wir euch aus dem Forschungsbericht herausgesucht. Auf der linken Seite seht ihr den Input, in diesem Fall eine grobe Zeichnung von einem Oktopus auf einem Fahrrad und ein Text: „a painting/illustration of an octopus riding a high wheel bike with pizza wheels on a tiled road by broccoli fields/ at sunset“.

Grob übersetzt heißt das „ein Gemälde/eine Illustration eines Oktopus, der auf einem Hochrad mit Pizzarädern auf einer gepflasterten Straße an Brokkolifeldern/bei Sonnenuntergang fährt“. Was der Generator dazu ausgespuckt hat, seht ihr rechts daneben.

Einen Oktopus auf einem Pizzfahrrad sieht man nicht alle Tage. (Foto: Cornell University / Make-A-Scene-Forschungsbericht)

KI befindet sich in der Testphase

Momentan ist die Make-A-Scene-KI aber noch nicht öffentlich verfügbar. Laut Engadget wird sie gerade von KI-Künstlern getestet, welche ihr Feedback geben sollen, damit sie weiterentwickelt werden kann. Wann und ob die KI für alle nutzbar sein wird, ist momentan noch unklar.

Mehr zu diesem Thema

MIT Technology Review Künstliche Intelligenz Bild-KI Meta

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren