Seit einigen Wochen macht Flux, eine Open-Source-Bild-KI aus Deutschland, im Netz auf sich aufmerksam. Die KI ist zwar noch nicht lange öffentlich verfügbar, kann aber schon mit etablierten Tools wie Midjourney oder Stable Diffusion mithalten.

Doch Flux kann noch mehr als normale Bildgenerierung. Ihr könnt die KI nämlich auch mit Fotos von euch selbst trainieren und im Anschluss KI-Bilder mit eurem eigenen Gesicht generieren. Egal, ob als Superman oder in einem Ferrari auf Hawaii – Flux macht es möglich. Wir erklären euch Schritt für Schritt, wie und was ihr dafür braucht.

Das braucht ihr

Gleich eine kleine Vorwarnung: Kostenlos ist die vorgestellte Methode nicht, aber keine Sorge, Millionär müsst ihr auch nicht sein. Das Training des Modells kostet ungefähr fünf US-Dollar und mit jedem weiteren Dollar könnt ihr 13 Bilder generieren.

Neben einer Kreditkarte zum Bezahlen benötigt ihr außerdem rund 15 Fotos von euch. Mehr sind gut, weniger sollten es nicht sein. Idealerweise in einer einigermaßen guten Auflösung und natürlich sollte euer Gesicht darauf zu sehen sein.

Und dann benötigt ihr noch einen Account auf der Website des KI-Anbieters fal.ai. Dort können verschiedene KI-Modelle per Weboberfläche genutzt werden, bezahlt wird mit Credits, die ihr im Voraus auf der Website kaufen müsst. Dazu oben rechts einfach auf das kleine Plus drücken und Credits für zehn Dollar kaufen. Das reicht für das bereits angesprochene Training und für einige Bilder.

Erst trainieren, dann generieren

Nachdem ihr euch bei fal.ai angemeldet und Credits gekauft habt, steuert ihr das Modell zum Training von Flux an. Dort ladet ihr eure Fotos entweder einzeln oder gesammelt als Zip-Datei hoch, könnt einige Einstellungen vornehmen (die Standardeinstellungen sind aber völlig okay) und müsst dann noch ein sogenanntes Trigger Word festlegen. Dieses benötigt ihr später im Prompt für Flux, um dem Modell zu sagen, dass ihr ein Foto von euch selbst generieren wollt. Ihr könnt hier alles wählen, wir haben uns für „alterego“ entschieden.

Wenn alles eingestellt und hochgeladen ist, klickt ihr auf „Start“ und müsst dann einige Minuten warten. In dieser Zeit wird die KI mit euren Fotos trainiert, das dauert etwas. Sobald alles fertig ist, erscheint rechts unter „Training history“ ein Eintrag. Dort müsst ihr dann „Show output“ auswählen und die zweite der beiden angezeigten URL kopieren – die, die mit „lora.safetensors“ endet. Diese benötigt ihr gleich im nächsten Schritt.

Das Training ist damit abgeschlossen, nun müsst ihr bei fal.ai in der Auswahl der Modelle „FLUX.1 [dev] with Controlnets and Loras“ auswählen. Das ist die Flux-KI, die ihr mit euren Trainingsdaten füttern könnt. Klappt auch hier die Additional Settings aus und tragt beim Punkt „Loras“ die eben kopierte URL ein, indem ihr auf „Add item“ klickt. Damit habt ihr Flux eure Trainingsdaten verlinkt und könnt mit der Generierung von Fotos beginnen.

Der Prompt

Um Bilder von euch zu generieren, müsst ihr auf ein paar Details achten. Zum einen muss der Prompt immer das von euch vorher festgelegte Trigger Word beinhalten. In unserem Beispiel mit dem Superhelden aus Metropolis wäre der Prompt also „alterego as Superman“. Tragt ihr im echten Leben eine Brille und wollte auch in den KI-Bildern eine tragen, müsst ihr diese in der Regel dazuprompten. Nach einem Klick auf „Run“ erstellt Flux euch innerhalb weniger Sekunden das gewünschte Bild von euch selbst.

Um euch die Erstellung von Prompts etwas zu erleichtern, könnt ihr auf eine Sprach-KI wie ChatGPT oder Gemini zurückgreifen. Bittet den Chatbot darum, Prompts für eine Bild-KI erstellen zu wollen, gebt an, dass das Trigger Word immer enthalten sein und die Prompts auf Englisch sein müssen. Im Anschluss könnt ihr dem Bot eine Szene beschreiben und erhaltet innerhalb von wenigen Sekunden ausführliche Prompts, die häufig zu guten Ergebnissen führen.

Die Ergebnisse sind teilweise erschreckend gut

Auch wenn Flux manchmal ordentlich daneben liegt und Bilder generiert, die nur entfernt an einen selbst erinnern, sind die Ergebnisse zum Großteil erschreckend nah an echten Fotos der Person, mit der die KI trainiert wurde. Manchmal stimmen die Hände nicht, stellenweise passt der Körper nicht zur Größe des Kopfes, aber die gezeigte Person ist in unserem Versuch fast immer klar zu erkennen. Sogar man selbst muss immer wieder genau hinschauen, um zu erkennen, ob ein Foto nun wirklich einen selbst zeigt oder nur durch eine KI erstellt wurde.

Solche Ergebnisse waren bisher nur mit einem deutlich größeren Aufwand zu erzielen und dann auch oft sehr viel schneller als KI-Bilder zu erkennen. Aber gerade die Qualität der Bilder kann auch zu einem Problem werden.

Was spaßig ist, öffnet leider auch Missbrauch eine Tür

Auch wenn bei dieser Spielerei lustige Bilder herauskommen, gibt es dennoch einen Aspekt, den wir nicht unerwähnt lassen wollen. Klar sollte natürlich sein, dass ihr nur Fotos von euch selbst nutzt, denn mit allem anderen verstoßt ihr gegen das Recht am eigenen Bild anderer Personen.

In der Weboberfläche von fal.ai ist außerdem der sogenannte Safety Checker immer aktiv und kann auch nicht deaktiviert werden. Heißt, ihr könnt Bilder nur bis zu einem bestimmten Punkt generieren, um Missbrauch der Funktion zu vermeiden. Allerdings ist das eine Entscheidung von fal.ai, Flux selbst kennt diese Grenzen nicht und per API-Schnittstelle kann der Safety Checker auch deaktiviert werden. Zudem ist Flux auch mit Safety Checker relativ ungehemmt. Ein Bild mit einer Waffe in der Hand? Kein Problem.

Immerhin konnten wir dank Safety-Funktion keine Nacktbilder oder Ähnliches erzeugen. Dennoch, aus der lustigen Spielerei mit Superman-Bildchen kann mit etwas Kenntnis auch ein echtes Problem werden. Leider ist das kein Thema, das erst mit Flux aufkommt, auch andere Bild-KI können Gesichter bereits in Fotos mit zweifelhaftem Inhalt generieren. Doch mit neuen Modellen wie Flux werden die Bilder immer realistischer und damit immer schwerer von echten Fotos zu unterscheiden. Spätestens jetzt sollten wir uns also überlegen, wie wir in Zukunft mit diesem Thema umgehen. Gesellschaftlich, politisch und regulatorisch.