Ob auf den sozialen Medien oder in der Presse: KI-generierte Bilder begegnen uns mittlerweile überall. Das ist auch verständlich, denn dank entsprechender Tools reicht eine simple Texteingabe, um innerhalb von Sekunden ein passendes Bild zu erhalten. Und dabei ist es egal, ob es fotorealistisch oder in einem x-beliebigen anderen Stil gehalten sein soll.
Wer Bilder mithilfe einer KI erstellen will, der hat heute die Wahl aus einer ganzen Reihe an KI-Modellen und Plattformen. Um euch die Auswahl eines geeigneten Tools zu erleichtern, stellen wir euch im Folgenden die drei wichtigsten Anbieter vor und erläutern die jeweiligen Vor- und Nachteile.
Wie funktioniert eine Bild-KI?
Aus Nutzersicht funktionieren Bildgeneratoren denkbar einfach: Ihr beschreibt, was ihr gerne sehen möchtet, und die KI liefert euch ein passendes Bild. Dabei könnt ihr beispielsweise auch einen bestimmten Zeichenstil wählen, die Farben festlegen oder auch eine Aufnahme durch einen spezifischen Kameratyp nachahmen lassen.
Technisch betrachtet ist der Prozess hingegen deutlich komplexer. Grundsätzlich gibt es mehrere Methoden, um Bilder mithilfe einer KI zu erzeugen. Am weitesten verbreitet sind mittlerweile aber sogenannte Diffusionsmodelle. Dabei wird einem künstlichen neuronalen Netzwerk beigebracht, wie es Bildrauschen von Bildern entfernt. Dieser Prozess wird nach dem Training quasi umgedreht und das Diffusionsmodell kann dann aus zufällig generiertem Rauschen ein neues Bild erzeugen.
Was ist der beste KI-Bildgenerator?
Grundsätzlich könnt ihr mit Dall-E 3, Midjourney und Stable Diffusion 3 überzeugende Bilder in den verschiedensten Stilen generieren. Ein direkter Vergleich der Bildqualität fällt daher schwer. In manchen Fällen versteht eines der KI-Modelle bestimmte Prompts besser als die anderen. Beispielsweise wollte nur Dall-E einen Ballon-Hund auch wirklich als einen aus Ballons geknoteten Hund darstellen. Am Ende können einzelne Prompts aber kaum als Entscheidungskriterium herangezogen werden.
Im redaktionellen Alltag hat uns Midjourney überzeugt. Abhängig vom eigenen Nutzungsverhalten könnte aber auch Dall-E 3 eine gute Wahl sein. Denn wer bereits für ChatGPT Plus bezahlt, der kann den Bildgenerator ohne zusätzliche Kosten einsetzen. Alternativ dazu gibt euch Microsoft kostenfreien Zugriff auf Dall-E 3 über den Bing Image Creator – dabei gibt es aber gewisse Einschränkungen. Stable Diffusion wiederum überzeugt durch eine große Anzahl an zusätzlichen Features.
Dall-E 3, Midjourney und Stable Diffusion im Überblick
Dall-E 3: Das kann der Bildgenerator von OpenAI
Das Vorgängermodell Dall-E 2 hat maßgeblich dazu beigetragen, die Produktkategorie überhaupt erst populär zu machen. Erstmals konnten Nutzer:innen qualitativ überzeugende Bilder anhand von Texteingaben erzeugen. Qualitativ wurde das KI-Modell in der Folgezeit aber deutlich von einigen Konkurrenten überholt. Erst mit der Einführung von Dall-E 3 im August 2023 spielt OpenAI auch wieder an der Spitze mit.
Derzeit gibt es zwei Möglichkeiten, Dall-E 3 zu verwenden. Bei der ersten könnt ihr direkt aus ChatGPT heraus Bilder erzeugen. Allerdings geht das nur, wenn ihr ein kostenpflichtiges ChatGPT-Plus-Abonnement habt. Das schlägt mit 20 US-Dollar pro Monat zu Buche. Zusätzlich zur priorisierten Nutzung von OpenAIs Chatbot könnt ihr damit täglich bis zu 50 Bilder von Dall-E 3 generieren lassen.
Das Angebot lohnt sich nur dann, wenn ihr auch ChatGPT regelmäßig nutzt. Denn zum einen sind Midjourney und Stable Diffusion günstiger zu haben, und zum anderen könnt ihr Dall-E 3 auch kostenfrei über Microsofts Suchmaschine Bing nutzen.
Wenn ihr Dall-E 3 über Bing verwendet, müsst ihr allerdings leider gewisse Einschränkungen in Kauf nehmen. Für jeden Prompt erzeugt euch der Bing Image Creator vier Bildvarianten. Dafür wird euch jeweils ein sogenannter „Boost“ abgezogen. Das sind Punkte, von denen ihr pro Woche maximal 15 erhaltet. Wenn alle aufgebraucht sind, könnt ihr zwar weiterhin Bilder generieren, das dauert dann aber mitunter deutlich länger.
Der Umweg über Bing lohnt sich daher vor allem dann, wenn ihr nur eine überschaubare Anzahl an Bildern per KI generieren wollt.
Midjourney: Extrem gute Bild-KI mit gewissen Usability-Nachteilen
Midjourney liefert unserem – zugegebenermaßen subjektivem – Eindruck nach konsistent die besten Ergebnisse aller Anbieter. Allerdings hat das Tool aus Nutzungssicht einen erheblichen Nachteil: Im Gegensatz zur Konkurrenz verfügt Midjourney über kein eigenes Web-Interface. Vielmehr erfolgt der Zugriff über den Chat-Dienst Discord. Dort könnt ihr über den Befehl /imagine eure Bildvorstellung an Midjourney übermitteln und erhaltet dann jeweils vier Bildvarianten.
Anschließend könnt ihr eine Variante wählen und dann beispielsweise „herauszoomen“, was bedeutet, dass Midjourney das Ursprungsbild an den Rändern erweitert. Auch hier erhaltet ihr wieder vier Auswahlmöglichkeiten. Außerdem könnt ihr gezielt Bildbereiche markieren und mit einem neuen Prompt weiter verändern.
Die Bedienung in Discord geht grundsätzlich schnell von der Hand. Nutzer:innenfreundlich ist das Ganze aber nicht wirklich. Immerhin arbeitet Midjourney an einem eigenen Web-Interface. Darüber könnt ihr derzeit aber noch keine eigenen Bilder generieren.
Bildergalerie: Midjourney verwandelt Harry-Potter-Charaktere in Wes-Anderson-Ikonen
Auch das Preismodell von Midjourney ist relativ kompliziert. Los geht es mit dem Basic-Plan für 10 Dollar monatlich oder 96 Dollar jährlich. Bei dem Plan seid ihr auf 3,3 Rechenstunden pro Monat begrenzt. Für 30 Dollar pro Monat oder 288 Dollar pro Jahr erhöht sich die für die Bildberechnung notwendige GPU-Zeit auf 15 Stunden.
Beide Pläne bringen euch aber nichts, wenn ihr ein Unternehmen mit mehr als einer Million Dollar Jahresumsatz seid. Denn dann dürft ihr mit den beiden Plänen erstellte Bilde laut Nutzungsrichtlinien des Anbieters nicht verwenden. Das geht nur, wenn ihr den Pro- oder den Mega-Plan abschließt. Die Kosten dafür beginnen bei 48 Dollar im Monat.
Stable Diffusion 3 auf Discord oder als Web-Chat
Stable Diffusion 3 ist die aktuelle Variante der wohl bekanntesten quelloffenen Bild-KI. Weil das Modell unter einer Open-Source-Lizenz steht, könnt ihr es auch selbst hosten, lokal auf eurem Rechner einsetzen oder einen der vielen kommerziellen Web-Anbieter nutzen, um damit Bilder zu generieren. Um einen besseren Vergleich mit den vorangegangenen Anbietern zu gewährleisten, wollen wir uns aber vor allem die zwei Cloud-Angebote von Hersteller Stability AI anschauen.
Wie Midjourney bietet auch Stability AI den Zugriff über den Chatdienst Discord an. Das wird unter dem Namen Stable Artisan angeboten. Alternativ gibt es aber auch einen eigenen webbasierten Chat zur Bilderzeugung, der sich Stable Assistant nennt.
Bei Stable Diffusion gibt es neben dem eigentlichen Prompt, in dem ihr das gewünschte Bild beschreib, auch den sogenannten Negativ-Prompt. Hier legt ihr fest, was auf dem Bild nicht zu sehen sein soll. So sollt ihr genauer definieren können, was ihr eigentlich sehen wollt.
Je nach gewünschtem Endergebnis ist auch die Sketch-Funktion enorm hilfreich. Hier legt ihr eurem Prompt eine kleine Skizze bei. Die muss nicht sonderlich gut gezeichnet sein. In Kombination mit dem richtigen Prompt werden hier aus ein paar Rechtecken schnell eine Skyline. Grundsätzlich habt ihr durch die Funktion eine Möglichkeit, die Bildkomposition selbst zu bestimmen.
Egal, ob ihr euch für oder gegen Discord entscheidet, die Preise sind identisch. Abhängig von dem gewählten Abonnement erhaltet ihr eine bestimmte Anzahl Credits. Pro erzeugten Bild werden 6,5 Credits von eurem Guthaben abgezogen. Außerdem kostet jede Nachricht an den Chatbot 0,1 Credit.
Los geht es aber neun Dollar pro Monat. Dafür erhaltet ihr 900 Credits. Für 19 Dollar erhaltet ihr monatlich 1.900 Credits und für 49 Dollar gibt es 5.500 Credits. Das teuerste Paket schlägt mit 99 Dollar monatlich zu Buche. Hier bekommt ihr dann 12.000 Credits monatlich.