Schwarzwälder Bild-KI: Flux.1 lässt Dall-E, Stable Diffusion und Midjourney alt aussehen

Test

Schwarzwälder Bild-KI: Flux.1 lässt Dall-E, Stable Diffusion und Midjourney alt aussehen

Mit Flux will sich eine KI aus dem Schwarzwald mit etabliertesten Anbietern messen. Wir haben die drei populärsten Bildgeneratoren Stable Diffusion, Midjourney und Dall-E gegen Flux.1 Pro antreten lassen.

Von Caspar von Allwörden

31.08.2024, 20:10 Uhr • 7 Min.

Schwarzwälder Bild-KI: Flux.1 lässt Dall-E, Stable Diffusion und Midjourney alt aussehen — (Bild: Black Forest Labs)

Auf den ersten Blick klingt die Geschichte fast zu schön, um wahr zu sein. Hinter dem neuen Open-Source-Modell Flux.1 steht Black Forrest Labs, eine kleine Firma aus Freiburg, die nur 14 Mitarbeiter:innen hat und erst wenige Monate alt ist. Dennoch sorgt die generative Bild-KI mit ihren Ergebnissen im Netz für Aufsehen und will laut eigener Angabe damit sogar etablierte Modelle wie Midjourney oder Dall-E übertreffen.

Doch der Erfolg kommt nicht von ungefähr, denn die Gründer Robin Rombach, Andreas Blattmann und Patrick Esser haben zusammen an der Ludwig-Maximilians-Universität München zum Thema KI geforscht und Rombach und Blattmann waren bis März 2024 an der Entwicklung von Stable Diffusion beteiligt.

Grund genug für uns, einen genaueren Blick auf Flux.1 Pro zu werfen und zu vergleichen. Daher haben wir drei der führenden KI-Bildgeneratoren gegen das Modell antreten lassen. Genauer gesagt Stable Diffusion XL, Midjourney V6 und Dall-E 3. Dabei haben wir die vier KIs mit vier unterschiedlichen Prompts gefüttert und ihre Ergebnisse im Hinblick auf Bildqualität, kreative Umsetzung und Handhabung miteinander verglichen. Natürlich kann dieser kurze Test keinen finalen Vergleich liefern, dafür bräuchte es viel mehr Prompts. Doch einen ersten Eindruck über die Fähigkeiten der verschiedenen Modelle erhält man so auf jeden Fall. Kleiner Spoiler: Schlecht schlägt sich Flux nicht.

Jetzt buchen: Lerne in unserem kompakten Onlinekurs, wie du deinen individuellen KI-Assistenten baust und Arbeit abnehmen lässt. Hier geht’s zum Shop!

Die verschiedenen KI-Modelle

Flux.1 Pro

Black Forest Labs bietet Flux in drei verschiedenen Modellen an. Flux.1 [schnell] ist, wie der Name bereits verrät darauf, ausgelegt möglichst schnell Bilder zu generieren und kann zum Beispiel bei Huggingface genutzt werden. Dort ist ebenfalls das Modell Flux.1 [dev] zu finden, welches effizienter sein soll als das größte Modelle, Flux.1 [pro].

Für diesen Artikel verwenden wir das Webinterface von Flux.1 [pro] beim Anbieter fal.ai. Dort stehen verschiedene KI-Modelle zur Auswahl, die mit vorher gekauften Credits bezahlt werden müssen. Die Pro-Variante von Flux kostet dort pro Generierung 0.05 US-Dollar für einen Dollar können wir das Modell also 20 Mal nutzen.

Stable Diffusion V3

Ebenfalls bei fal.ai finden wir Stable Diffusion in der aktuellen Version 3. Das Modell ist dort etwas günstiger in der Generierung als Flux, für einen Dollar könnten wir 29 Durchgänge starten.

Entwickelt wird Stable Diffusion von Stability AI in London, eine Firma die in den vergangenen Monaten in die Schlagzeilen geriet. Nach einem Rücktritt des CEOs folgten ein Stellenabbau von 10 Prozent und in Großbritannien stehen dem Unternehmen mehrere Klagen wegen Urheberrechtsverletzungen bevor. Trotz einer Bewertung von einer Milliarde Dollar wurde im Mai bekannt, dass Stability AI wohl das Geld ausgeht und man nach einem Käufer suchen würde.

Midjourney V6

Wie Flux ist auch Midjourney aus der Forschung heraus entstanden, und zwar am Forschungsinstitut Midjourney, Inc. in San Francisco. Seit Mitte 2022 ist die KI über einen Discord-Server in einer Open-Beta verfügbar. Die Version 6 erschien Ende 2023 und soll vor allem mit Texten in Bildern besser umgehen können.

Inzwischen ist die Nutzung von Midjourney kostenpflichtig und startet im Basic Plan bei 10 US-Dollar im Monat. Ebenfalls neu ist ein Webinterface, bislang mussten Bilder über einen Discord-Server generiert werden.

Empfehlungen der Redaktion

Ratgeber

Mit Midjourney zum perfekten Bild: Was ihr über Prompts und Einstellungen wissen müsst

Ratgeber

Dall-E, Midjourney und Stable Diffusion: Die besten KI-Bildgeneratoren im Überblick

News

Midjourney könnte zwei Gesichter verbannen – aus gutem Grund

Dall-E 3

Hinter Dall-E steckt die wohl bekannteste KI-Firma OpenAI. Inzwischen ist die generative Bild-KI nicht mehr eigenständig nutzbar, sondern in ChatGPT integriert. Einfach den Textbot mit dem Prompt füttern und einige Sekunden später ist das generierte Bild fertig.

Seit Oktober 2023 ist Dall-E 3 für zahlende Abonnentinnen von ChatGPT Plus verfügbar und steht auch Enterprise-Kunden zur Verfügung. Bei OpenAI startet ein Abonnement bei 20 Dollar pro Monat.

Die Prompts und die Ergebnisse

Bei unseren vier Prompts versuchen wir verschiedene Stile und Motive zu testen. So bitten wir die KIs ein Raumschiff im Comic-Stil zu erstellen, einen möglichst realistischen Drachen an einem See, eine Bleistiftzeichnung einer Tanzgesellschaft und das Porträt eines Mannes, der in die Kamera winkt.

In den englischen Prompts geben wir genaue Anweisungen zur Szene, die dargestellt werden soll und den Stil, den wir uns wünschen. Auch welche Elemente genau enthalten sein sollen, beschreiben wir darin. Daher sind die Ergebnisse vom Aufbau und der Farbgebung auch relativ ähnlich und somit vergleichbar.

Prompt 1: Futuristischer Science-Fiction Comic

Prompt: A massive, ultra-modern spaceship hovers over a dystopian cityscape at sunset. The city is shrouded in mist, with glowing holograms and futuristic billboards. The spaceship is detailed, with many small lights and gleaming metal plates. Below in the city, tiny people and futuristic vehicles fly between the skyscrapers. The sky is bathed in intense orange and purple hues, all rendered in a bold, dynamic comic book style with exaggerated lines and vibrant colors. (Bild: Montage t3n)

Direkt fällt auf, sowohl Flux als auch Midjourney und Stable Diffusion setzen den Prompt ähnlich um. Alle drei sind überwiegend Lila und Gelb und auch der Comic-Buch-Style kommt gut bei ihnen rüber. Am ehesten erinnert unserem Geschmack nach Flux an ein Comic, die anderen beiden sind aber ebenfalls sehr nah an einer Graphic Novel. Heraus sticht in diesem Beispiel Dall-E mit blauen Farbtönen und einer insgesamt nicht so künstlerischen Darstellung.

Prompt 2: Fantasy-Drache

Prompt: A majestic dragon with gleaming emerald green scales rises from a crystal-clear lake in the middle of an ancient, enchanted forest. Waves break around the dragon, and you can see the intricate details of its scales and the reflection in the water. The trees in the background are densely covered with foliage, and magical lights shimmer between the leaves. A mysterious figure dressed in medieval attire stands on the shore, observing the scene. (Bild: Montage t3n)

Der Prompt um den Drachen liefert in diesem kurzen Test die insgesamt ähnlichsten Ergebnisse. Was auffällt: Stable Diffusion ist auch bei einer wiederholten Generierung nicht dazu zu bewegen die „mysterious figure“ mit in das Bild zu integrieren. Dort ist immer nur der Drache alleine zu sehen. Geht man nur nach Ästhetik, dann bietet Midjourney in unseren Augen das beste Ergebnis.

Prompt 3: Historische Bleistiftzeichnung

Prompt: A lavish ball in a 17th-century palace. The ballroom is adorned with opulent chandeliers, gilded mirrors, and richly decorated wallpapers. Noble ladies in elaborate, multi-layered dresses and gentlemen in elegant suits with wigs are dancing a minuet. The intricate details of the fabrics, the expressions of the dancing guests, and the play of candlelight on the polished floors are depicted in a detailed pencil drawing, with fine shading and textures giving depth to the scene. (Bild: Montage t3n)

Während die Drachen alle sehr ähnlich sehen, kommt es bei der Tanzveranstaltung aus dem 17. Jahrhundert zu deutlicheren Unterschieden. Stable Diffusion generiert immer ein farbiges Bild, orientiert sich scheinbar eher an Ölgemälden aus der Zeit, während die anderen drei die im Prompt geforderte Bleistiftzeichnung besser umsetzen. Am nächsten kommt Midjourney einer echten Zeichnung aber alle vier scheinen Probleme mit Gesichtern der Personen zu haben.

Prompt 4: Porträt eines Mannes

Prompt: A photorealistic image of a man in his mid-30s. He is wearing a black-framed pair of glasses and has short, neatly styled hair. He is smiling warmly while waving at the viewer with his right hand. The background is softly blurred to keep the focus on the man, resembling a professional portrait photograph. The lighting is natural, highlighting his facial features and creating a friendly, approachable atmosphere. His clothing is casual yet stylish, with a simple, well-fitted shirt. (Bild: Montage t3n)

Die größten Unterschiede liefert der Prompt rund um das Portraitfoto eines Mannes mit Brille. Dall-E wirkt hier nun plötzlich eher wie ein Comic und nicht photorealistisch. Bei Flux muss man etwas genauer hinsehen, um ein KI-Bild zu erkennen, bei Midjourney ist die Darstellung so gut, dass schwer ist das Bild von einem echten Foto zu unterscheiden. Und Stable Diffusion zeigt, dass Hände auch 2024 noch ein Problem für künstliche Intelligenz sein kann.

Fazit und (fehlende) Grenzen

Wie bereits beschrieben, kann dieser kurze Test nur einen ersten Eindruck von den Fähigkeiten und Unterschieden zwischen den generativen KI-Modellen vermitteln. Ab auf den ersten Blick ist Flux überraschend gut dafür, dass die KI noch nicht so lange entwickelt wird wie die Mitbewerber. Müssten wir uns auf ein Ranking festlegen, schneidet Flux bei den vier geprompteten Beispielen mit dem zweiten Platz echt gut ab. Midjourney bietet im Vergleich etwa fotorealistischere Bilder von Personen und scheint eine größere Bandbreite abzudecken.

Es gibt allerdings einen entscheidenden Unterschied zwischen Flux und dem Rest, auf den wir bisher noch gar nicht eingegangen sind und der betrifft die Begrenzungen der KI. Während zum Beispiel Dall-E sich weigert Fotos von prominenten Personen zu erstellen, hat Flux kein Problem damit. Und dreht man im Webinterface von fal.ai die Safety Tolerance von Flux.1 [pro] nach oben, dann sind auch Bilder mit Waffen oder nackten Menschen in wenigen Sekunden generiert. Donald Trump der mit Waffe auf einen zielt oder Putin knutscht? Erstellt Flux ohne zu murren!

Dazu passt auch, dass solche Fotos gerade vor allem bei X die Runde machen, denn zwischen X und Black Forest Labs gibt es eine Kooperation. Zahlende X-Abonnent:innen können Flux nämlich in dem sozialen Netzwerk nutzen, um Bilder für Postings zu generieren. Und scheinbar hat man bei der Einbindung bewusst oder unbewusst die Safety Tolerance hoch eingestellt.

Mehr zu diesem Thema

MIT Technology Review Künstliche Intelligenz Bild-KI Midjourney Stable Diffusion

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Brands

Themen

Magazine

Skills

Schwarzwälder Bild-KI: Flux.1 lässt Dall-E, Stable Diffusion und Midjourney alt aussehen

Die verschiedenen KI-Modelle

Flux.1 Pro

Stable Diffusion V3

Midjourney V6

Dall-E 3

Die Prompts und die Ergebnisse

Prompt 1: Futuristischer Science-Fiction Comic

Prompt 2: Fantasy-Drache

Prompt 3: Historische Bleistiftzeichnung

Prompt 4: Porträt eines Mannes

Fazit und (fehlende) Grenzen