Es ist ein großer Spaß, verrückte Wortkombinationen in ein Textfeld einzugeben und kurze Zeit später seine Vorstellungen als Bild präsentiert zu bekommen, dass sogar halbwegs realistisch aussieht und genau das umsetzt, was sich gewünscht wurde. Dahinter stecken Bild-KI, die sich in den letzten Jahren immer mehr verbreiteten.
Wir haben uns für euch angeschaut, was es in der Bild-KI-Szene mittlerweile alles gibt.
Dall-E und Dall-E 2
Den Anfang macht Dall-E. Das von OpenAI entwickelte Computerprogramm erstellt Bilder aus Texten und nutzt dafür künstliche neuronale Netzwerke. Dabei kann das Programm, dessen Name ein Mix aus Wall-E und Salvador Dali ist, Bilder in verschiedensten künstlerischen Stilrichtungen kreieren. Trainiert wurde die KI mit Millionen von Bildern aus dem Internet.
Mittlerweile hat Dall-E mit Dall-E 2 bereits eine neue Version erhalten. Dall-E 2 verspricht im Vergleich zu seinem Vorgänger eine noch höhere Auflösung, mehr Performance und realistischere Bilder. Allerdings ist die KI nicht für jedermann. OpenAI sieht vor, dass vorerst nur Forscher Zugang erhalten. Für alle anderen gibt es online eine Warteliste.
Midjourney
Das KI-Tool Midjourney ist in der Lage, futuristische Wohnarchitektur samt Bepflanzung zu schaffen oder sogar dafür zu sorgen, dass KI-Gemälde Kunstpreise abräumen. Vom Prinzip her funktioniert Midjourney ähnlich wie Dall-E. Nutzer geben dem Tool Anweisungen via Text und die KI erstellt daraus eine passende Grafik. Aktuell befindet sich das Tool noch in der Open Beta. Midjourney verwendet ein Freemium-Geschäftsmodell mit einem begrenzten kostenlosen Kontingent und eine kostenpflichtige Variante, die schnelleren Zugriff, größere Kapazität und zusätzliche Funktionen bietet.
Imagen
Es war nur eine Frage der Zeit, bis auch die ganz großen Unternehmen den Text-zu-Bild-Hype mitnehmen und ihre eigenen KI-Tools vorstellen. Den Anfang gemacht hat Google mit seinem Generator Imagen. Das Softwaretool setzt dabei laut Google auf „einen noch nie dagewesenen Grad an Fotorealismus und ein tiefes Sprachverständnis“. Die Bildgeneratoren seien demnach noch diverser und genauer als die der Konkurrenz.
AI Greenscreen
Auch die Videoplattform Tiktok integrierte mit AI Greenscreen eine eigene Text-zu-Bild-KI in ihre App. Tiktok will damit die Lücke der uneingeschränkten Verfügbarkeit schließen, die High-End-Generatoren wie Dall-E beim normalsterblichen Nutzer hinterlassen. Allerdings produziert AI Greenscreen auch keine fotorealistischen Werke, sondern viel mehr abstrakte Farbkombinationen, die mit viel Wohlwollen und etwas Fantasie erahnen lassen, was sich hinter ihnen verbirgt.
Stable Diffusion
Stable Diffusion geht den gleichen Weg wie die bereits genannten Tools und generiert aus Textbausteinen Bilder. Allerdings geht die KI noch einen Schritt weiter. Nutzer können dem Tool skizzieren, wie das Endprodukt ungefähr aussehen soll, und Stable Diffusion orientiert sich daran. Ein weiterer Unterschied ist, dass Hersteller Stability AI das komplette Modell offengelegt hat. Somit haben alle Entwickler die Möglichkeit, die KI für ihre eigenen Projekte zu verwenden.