Schwarzwälder Bild-KI: Flux.1 lässt Dall-E, Stable Diffusion und Midjourney alt aussehen
Auf den ersten Blick klingt die Geschichte fast zu schön, um wahr zu sein. Hinter dem neuen Open-Source-Modell Flux.1 steht Black Forrest Labs, eine kleine Firma aus Freiburg, die nur 14 Mitarbeiter:innen hat und erst wenige Monate alt ist. Dennoch sorgt die generative Bild-KI mit ihren Ergebnissen im Netz für Aufsehen und will laut eigener Angabe damit sogar etablierte Modelle wie Midjourney oder Dall-E übertreffen.
Doch der Erfolg kommt nicht von ungefähr, denn die Gründer Robin Rombach, Andreas Blattmann und Patrick Esser haben zusammen an der Ludwig-Maximilians-Universität München zum Thema KI geforscht und Rombach und Blattmann waren bis März 2024 an der Entwicklung von Stable Diffusion beteiligt.
Grund genug für uns, einen genaueren Blick auf Flux.1 Pro zu werfen und zu vergleichen. Daher haben wir drei der führenden KI-Bildgeneratoren gegen das Modell antreten lassen. Genauer gesagt Stable Diffusion XL, Midjourney V6 und Dall-E 3. Dabei haben wir die vier KIs mit vier unterschiedlichen Prompts gefüttert und ihre Ergebnisse im Hinblick auf Bildqualität, kreative Umsetzung und Handhabung miteinander verglichen. Natürlich kann dieser kurze Test keinen finalen Vergleich liefern, dafür bräuchte es viel mehr Prompts. Doch einen ersten Eindruck über die Fähigkeiten der verschiedenen Modelle erhält man so auf jeden Fall. Kleiner Spoiler: Schlecht schlägt sich Flux nicht.
Die verschiedenen KI-Modelle
Flux.1 Pro
Black Forest Labs bietet Flux in drei verschiedenen Modellen an. Flux.1 [schnell] ist, wie der Name bereits verrät darauf, ausgelegt möglichst schnell Bilder zu generieren und kann zum Beispiel bei Huggingface genutzt werden. Dort ist ebenfalls das Modell Flux.1 [dev] zu finden, welches effizienter sein soll als das größte Modelle, Flux.1 [pro].
Für diesen Artikel verwenden wir das Webinterface von Flux.1 [pro] beim Anbieter fal.ai. Dort stehen verschiedene KI-Modelle zur Auswahl, die mit vorher gekauften Credits bezahlt werden müssen. Die Pro-Variante von Flux kostet dort pro Generierung 0.05 US-Dollar für einen Dollar können wir das Modell also 20 Mal nutzen.
Stable Diffusion V3
Ebenfalls bei fal.ai finden wir Stable Diffusion in der aktuellen Version 3. Das Modell ist dort etwas günstiger in der Generierung als Flux, für einen Dollar könnten wir 29 Durchgänge starten.
Entwickelt wird Stable Diffusion von Stability AI in London, eine Firma die in den vergangenen Monaten in die Schlagzeilen geriet. Nach einem Rücktritt des CEOs folgten ein Stellenabbau von 10 Prozent und in Großbritannien stehen dem Unternehmen mehrere Klagen wegen Urheberrechtsverletzungen bevor. Trotz einer Bewertung von einer Milliarde Dollar wurde im Mai bekannt, dass Stability AI wohl das Geld ausgeht und man nach einem Käufer suchen würde.
Midjourney V6
Wie Flux ist auch Midjourney aus der Forschung heraus entstanden, und zwar am Forschungsinstitut Midjourney, Inc. in San Francisco. Seit Mitte 2022 ist die KI über einen Discord-Server in einer Open-Beta verfügbar. Die Version 6 erschien Ende 2023 und soll vor allem mit Texten in Bildern besser umgehen können.
Inzwischen ist die Nutzung von Midjourney kostenpflichtig und startet im Basic Plan bei 10 US-Dollar im Monat. Ebenfalls neu ist ein Webinterface, bislang mussten Bilder über einen Discord-Server generiert werden.
Dall-E 3
Hinter Dall-E steckt die wohl bekannteste KI-Firma OpenAI. Inzwischen ist die generative Bild-KI nicht mehr eigenständig nutzbar, sondern in ChatGPT integriert. Einfach den Textbot mit dem Prompt füttern und einige Sekunden später ist das generierte Bild fertig.
Seit Oktober 2023 ist Dall-E 3 für zahlende Abonnentinnen von ChatGPT Plus verfügbar und steht auch Enterprise-Kunden zur Verfügung. Bei OpenAI startet ein Abonnement bei 20 Dollar pro Monat.
Die Prompts und die Ergebnisse
Bei unseren vier Prompts versuchen wir verschiedene Stile und Motive zu testen. So bitten wir die KIs ein Raumschiff im Comic-Stil zu erstellen, einen möglichst realistischen Drachen an einem See, eine Bleistiftzeichnung einer Tanzgesellschaft und das Porträt eines Mannes, der in die Kamera winkt.
In den englischen Prompts geben wir genaue Anweisungen zur Szene, die dargestellt werden soll und den Stil, den wir uns wünschen. Auch welche Elemente genau enthalten sein sollen, beschreiben wir darin. Daher sind die Ergebnisse vom Aufbau und der Farbgebung auch relativ ähnlich und somit vergleichbar.
Prompt 1: Futuristischer Science-Fiction Comic
Direkt fällt auf, sowohl Flux als auch Midjourney und Stable Diffusion setzen den Prompt ähnlich um. Alle drei sind überwiegend Lila und Gelb und auch der Comic-Buch-Style kommt gut bei ihnen rüber. Am ehesten erinnert unserem Geschmack nach Flux an ein Comic, die anderen beiden sind aber ebenfalls sehr nah an einer Graphic Novel. Heraus sticht in diesem Beispiel Dall-E mit blauen Farbtönen und einer insgesamt nicht so künstlerischen Darstellung.
Prompt 2: Fantasy-Drache
Der Prompt um den Drachen liefert in diesem kurzen Test die insgesamt ähnlichsten Ergebnisse. Was auffällt: Stable Diffusion ist auch bei einer wiederholten Generierung nicht dazu zu bewegen die „mysterious figure“ mit in das Bild zu integrieren. Dort ist immer nur der Drache alleine zu sehen. Geht man nur nach Ästhetik, dann bietet Midjourney in unseren Augen das beste Ergebnis.
Prompt 3: Historische Bleistiftzeichnung
Während die Drachen alle sehr ähnlich sehen, kommt es bei der Tanzveranstaltung aus dem 17. Jahrhundert zu deutlicheren Unterschieden. Stable Diffusion generiert immer ein farbiges Bild, orientiert sich scheinbar eher an Ölgemälden aus der Zeit, während die anderen drei die im Prompt geforderte Bleistiftzeichnung besser umsetzen. Am nächsten kommt Midjourney einer echten Zeichnung aber alle vier scheinen Probleme mit Gesichtern der Personen zu haben.
Prompt 4: Porträt eines Mannes
Die größten Unterschiede liefert der Prompt rund um das Portraitfoto eines Mannes mit Brille. Dall-E wirkt hier nun plötzlich eher wie ein Comic und nicht photorealistisch. Bei Flux muss man etwas genauer hinsehen, um ein KI-Bild zu erkennen, bei Midjourney ist die Darstellung so gut, dass schwer ist das Bild von einem echten Foto zu unterscheiden. Und Stable Diffusion zeigt, dass Hände auch 2024 noch ein Problem für künstliche Intelligenz sein kann.
Fazit und (fehlende) Grenzen
Wie bereits beschrieben, kann dieser kurze Test nur einen ersten Eindruck von den Fähigkeiten und Unterschieden zwischen den generativen KI-Modellen vermitteln. Ab auf den ersten Blick ist Flux überraschend gut dafür, dass die KI noch nicht so lange entwickelt wird wie die Mitbewerber. Müssten wir uns auf ein Ranking festlegen, schneidet Flux bei den vier geprompteten Beispielen mit dem zweiten Platz echt gut ab. Midjourney bietet im Vergleich etwa fotorealistischere Bilder von Personen und scheint eine größere Bandbreite abzudecken.
Es gibt allerdings einen entscheidenden Unterschied zwischen Flux und dem Rest, auf den wir bisher noch gar nicht eingegangen sind und der betrifft die Begrenzungen der KI. Während zum Beispiel Dall-E sich weigert Fotos von prominenten Personen zu erstellen, hat Flux kein Problem damit. Und dreht man im Webinterface von fal.ai die Safety Tolerance von Flux.1 [pro] nach oben, dann sind auch Bilder mit Waffen oder nackten Menschen in wenigen Sekunden generiert. Donald Trump der mit Waffe auf einen zielt oder Putin knutscht? Erstellt Flux ohne zu murren!
Dazu passt auch, dass solche Fotos gerade vor allem bei X die Runde machen, denn zwischen X und Black Forest Labs gibt es eine Kooperation. Zahlende X-Abonnent:innen können Flux nämlich in dem sozialen Netzwerk nutzen, um Bilder für Postings zu generieren. Und scheinbar hat man bei der Einbindung bewusst oder unbewusst die Safety Tolerance hoch eingestellt.
Starkes Modell, Glückwunsch an die Entwickler. Es schlummert so viel Talent bei uns, leider wird es viel zu soft angefasst das Thema.