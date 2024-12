Google hat zum Ende des Jahres noch einen großen KI-Rundumschlag im Gepäck. Neben der Ankündigung der Video-KI Veo 2 startet das Unternehmen ab sofort auch ein KI-Tool, das Bildgenerierung auch ohne lange Prompts ermöglichen soll. Das Programm von Google trägt den Namen Whisk und kombiniert Bilder miteinander, um ein KI-Bild für euch zu erstellen.

Whisk: So erstellt ihr euch ein Objekt für euer KI-Bild

Whisk – was im Deutschen Schneebesen oder verquirlen bedeutet – kann mehrere Bilder miteinander kombinieren, die ihr dem Programm vorgebt. Sei es durch einen Prompt oder indem ihr einfach Bilder hochladet. Dabei könnt ihr drei Elemente genauer bestimmen: das Thema, also, was ihr in eurem Bild primär zeigen wollt sowie die Szene, in der das Ganze stattfinden soll und der Stil, in dem das Bild gehalten wird.

Um Google Whisk auszuprobieren, müsst ihr hierzulande noch auf ein VPN zurückgreifen. Zu Beginn begrüßt euch das KI-Tool mit einer Vorauswahl. Ihr sollt ein Bild hochladen, um ein Kuscheltier zu erstellen. Also haben wir uns kurzerhand das t3n-Logo geschnappt und einen ersten Entwurf generieren lassen. Das Ergebnis: ein knallrotes t3n-Kuscheltier mit Knopfaugen.

Dieses Ergebnis ist aber nicht alles. Denn nach diesem Tutorial können wir in den Editor wechseln und alle Funktionen von Googles Whisk frei nutzen. Der erste Entwurf war schon recht gelungen. Die Farbe des Logos hat das KI-Tool für das Kuscheltier übernommen und auch den Text erkannt und korrekt wiedergegeben. Allerdings war uns das Kuscheltier auf einem weißen Hintergrund zu langweilig. Also wechselten wir zum Bereich für die Szene und einem Text-Prompt.

Der nächste Schritt in Whisk: Szene und Stil anpassen

Das Besondere bei Google Whisk ist, dass ihr schon anhand der Prompts in den Kategorien Thema, Szene und Stil eigene Bilder generiert bekommt. Diese könnt ihr jederzeit anpassen, herunterladen oder einfach neu generieren, wenn sie euch nicht gefallen. Sie alle beeinflussen am Ende das Ergebnis. Im Übrigen müssen alle Eingaben dabei auf Englisch erfolgen. Auch wenn die Oberfläche von Whisk trotz VPN auf Deutsch angezeigt wird, scheitern Eingaben auf Deutsch und werden nicht generiert.

Wir haben uns zunächst dazu entschieden, den kuscheligen t3n-Kumpel ins Büro zu verfrachten. Die KI erstellte uns anhand des Prompts „sitting in an office“ zunächst einen Business-Mann, der am Schreibtisch sitzt und auf einen Computer-Monitor schaut. Der Prompt von Whisk umfasste dann aber noch weitere Details wie seine Kleidung, seine körperlichen Merkmale und Details zu seiner Arbeitsumgebung. Der kurze Prompt wird also verlängert. Kurzerhand haben wir den Mann im Prompt gegen unser Kuscheltier ausgetauscht und das oben stehende Ergebnis erhalten.

Den Stil konnte Whisk bis zu diesem Punkt noch komplett allein bestimmen. Um ein für die Jahreszeit passendes Bild zu generieren, haben wir als Thema zunächst das t3n-Kuscheltier vorgegeben, dann in der Szene einen Weihnachtsmann beschrieben, der vor dem Weihnachtsbaum sitzt – umringt von Keksen, Milch und Geschenken. Als Stil wählten wir einen Comic-Stil der 80er-Jahre mit knalligen Farben, dicken Konturlinien und den typischen Benday-Dots. Das Ergebnis kann sich sehen lassen:

Welche Probleme hat Whisk noch?

Beim Ausprobieren von Googles Whisk sind uns aber noch ein paar Fehler aufgefallen. Diese sind aber auch zu erwarten. Schließlich zeichnet Google das KI-Tool noch als Alpha aus. In den kommenden Monaten dürften einige dieser Punkte vermutlich behoben werden. Einer der gravierendsten Punkte betrifft die Konsistenz zwischen den einzelnen Bildern. Wie ihr seht, hat sich das Kuscheltier auch innerhalb kurzer Zeit gewandelt und wurde deutlich runder.

Zudem hat Google Whisk nach einigen Prompts Probleme mit dem Schriftzug bekommen. Wir vermuten, dass das an der Anzahl der steigenden Prompts lag, die das KI-Tool berücksichtigen musste. Denn als wir eine neue Kreation begonnen oder das KI-Tool an die richtige Schreibweise erinnert haben, funktionierte die Text-Generierung wieder zuverlässiger. Ansonsten plagen Whisk die üblichen KI-Probleme. Dazu zählen etwa zusätzliche oder ineinander verschmelzende Gliedmaßen bei Menschen sowie Gegenstände, die eigentlich nicht ins Bild gehören. In einer Variante des Weihnachtskuscheltiers hing etwa ein Stück Pizza am Baum.

Dennoch bietet Whisk in seiner aktuellen Form schon ein interessantes und vor allem spaßiges Konzept. Nutzer:innen können hier auch ohne Prompt-Vorkenntnisse schnell gute Ergebnisse erzielen. Und wer an den Prompts von Whisk herumdoktert, kann der KI noch präzisere Ergebnisse entlocken. Für deutsche User:innen bleibt deshalb nur zu hoffen, dass sich Whisk künftig auch ohne Umwege hierzulande nutzen lassen kann.

