„Unheimlich“: Diese KI erstellt Bilder aus Text

Fundstück

„Unheimlich“: Diese KI erstellt Bilder aus Text

Die KI-Entwickler von OpenAI stellen ein neues ML-Modell vor, das in der Lage ist, nahezu beliebige Bilder anhand beliebiger Textbefehle zu erstellen. Wer will, kann damit experimentieren.

Von Dieter Petereit

23.12.2021, 10:35 Uhr • 2 Min.

„Unheimlich“: Diese KI erstellt Bilder aus Text — Diese KI kann Texte zu Bildern machen. (Grafik: Vectorium / Shutterstock)

Mit erkennbarer Begeisterung und Ehrfurcht twittert der Code-Künstler Kyle McDonald über die Ergebnisse neuer Forschung des Unternehmens OpenAI: „Beeindruckend. Die Verwendung von Machine Learning zum Generieren von Bildern aus Text … wird dank der neuesten @openai-Forschung noch viel unheimlicher.“

Dazu hängt er eine Galerie mit Screenshots an, die auf den ersten Blick unspektakulär wirken. Wenn wir uns indes klarmachen, wie sie entstanden sind, wird deutlich, wieso McDonald sie als „unheimlich“ bezeichnet.

Empfehlungen der Redaktion

Feature

Deep Learning: Diese kolumbianische KI kann deinen Morgenkaffee verbessern

Tool-Tipp

Covis sagt dir, wie hoch das Corona-Risiko an deinem Standort ist

Ratgeber

Was ist eigentlich der Unterschied zwischen AI, Machine Learning, Deep Learning und Natural Language Processing?

KI leistet kreativen Prozess per Textbefehl

Die Bilder wurden nämlich von der KI geschaffen, nachdem sie per Texteingabe dazu aufgefordert wurde. So hat die KI aus dem Kommandozeilen-Input „ein Igel, der einen Taschenrechner nutzt“ das oberste linke Bild erstellt. Dabei könnte es sich noch um ein flugs herbei gegoogeltes Bild handeln.

Ergebnisse wie die „Roboter in Vipassana-Meditation“ oder das „surrealistische Ölbild einer Dame-spielenden Katze im Stil von Salvador Dáli“ zeigen indes, dass es sich tatsächlich um den kreativen Akt der Erschaffung von Bildern durch Algorithmen des maschinellen Lernens handelt.

Die Darstellungen stammen aus einer OpenAI-Studie, die am Montag auf dem Arxiv-Server der privaten Cornell University im US-Bundesstaat New York unter dem (übersetzten) Titel „Glide: Fotorealistische Bilderzeugung und -bearbeitung mit textgesteuerten Diffusionsmodellen“ erschienen ist.

Abgespecktes Open-Source-Modell auf GitHub veröffentlicht

Eine abgespeckte Version des Glide-KI-Modells hat OpenAI auf GitHub veröffentlicht. Mit diesem Modell konnte McDonald selbst experimentieren. Dabei hat er allerdings deutlich schlechtere Ergebnisse erzielt, wie das folgende Bild aus seinem Twitter-Account zeigt:

Kleineres Glide-Modell mit schwächeren Ergebnissen. (Bild: Kyle McDonald / Twitter)

Im Twitter-Thread wird daher die Vermutung laut, die von OpenAI veröffentlichten Ergebnisse seien „stark kuratiert“, also einer intensiven Vorselektion unterzogen worden. Klar ist aber ebenso, dass das kleinere, rein filterbasierte KI-Modell nicht die gleichen Ergebnisse bringen kann. Die wahren Fähigkeiten werden derzeit wohl in der Mitte zwischen den beiden Bildergalerien liegen.

Das ist OpenAI

Das von Elon Musk mitbegründete Forschungslabor OpenAI ist vor allem durch sein weithin als bahnbrechend empfundenes KI-Sprachmodell GPT-3 bekannt geworden. Das wohl komplexeste Maschine-Learning-Sprachmodell am Markt hatte Microsoft, schon seit 2019 Großinvestor von OpenAI, exklusiv zur Integration in die eigene Produktpalette lizenziert. OpenAI setzt dabei voll auf die Azure Cloud.

Habt ihr nun Lust bekommen, ebenfalls ein wenig mit KI-Kunst zu experimentieren, könntet ihr euch einmal die für iOS und Android verfügbare App Dream by Wombo ansehen. Die Ergebnisse sind zwar etwas psychedelisch, aber machen durchaus Spaß.

Mehr zu diesem Thema

MIT Technology Review Künstliche Intelligenz GitHub Open AI

Verpasse keine News! 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren