ChatGPT generiert jetzt Bilder mit GPT-4o: Welche Verbesserungen es im Vergleich zu Dall-E gibt

ChatGPT soll dank GPT-4o bessere Bilder für euch generieren. (Bild: Shutterstock/JarTee)
Viele KI-Modelle können Bilder für euch erstellen. Gerade an Aufgaben wie Text oder dem Beibehalten von Details über mehrere Anfragen hinweg scheitern die meisten Modelle aber. Jetzt will OpenAI diese Probleme mit einem großen Update für ChatGPT lösen. Statt Dall-E kommt künftig GPT-4o als Modell zur Bildgenerierung zum Einsatz.
ChatGPT: Diese Vorteile bringt GPT-4o bei der Bildgenerierung
Wie OpenAI in einem ausführlichen Beitrag erklärt, soll zunächst das Erstellen von detailliertem Text mit der KI möglich sein. Während andere Modelle statt Text oft nur grobe Hieroglyphen erstellen, kann ChatGPT dank GPT-4o genaue Anweisungen zu Texten befolgen. Als Beispiel zeigt OpenAI etwa das Bild eines Mannes, der Magnete, auf denen Wörter stehen, auf einem Kühlschrank platziert. ChatGPT kann dank des neuen Modells jedes einzelne Wort separat generieren und an die richtige Stelle setzen. Laut OpenAI soll das finale Ergebnis nur fünf Versuche gebraucht haben.
Eine weitere Verbesserung zeigt sich, wenn ihr besonders detaillierte Anfragen an ChatGPTs Bilderstellung richtet. Laut OpenAI scheitern andere Systeme oftmals, wenn sie mit mehr als fünf bis acht Anweisungen konfrontiert werden. Eine solche Anweisung ist etwa, jedem gewünschten Objekt auf dem Bild eine bestimmte Farbe zuzuordnen. GPT-4o soll zehn bis 20 verschiedene Objekte gleichzeitig anhand eurer Anweisungen erstellen können. Die KI soll dabei stets im Blick behalten, welche Attribute welchem Objekt im Bild zugeordnet wurden und diese auch über weitere Iterationen beibehalten.
Das Beibehalten von schon generierten Inhalten zeigt sich auch in einem anderen Beispiel – dem generierten Bild einer Katze. Wenn User:innen die KI anweisen, der Katze einen Hut und ein Monokel hinzuzufügen, bleibt die Katze selbst erhalten und wird von der KI nicht verändert. OpenAI sieht hier vor allem beim Designen von Inhalten für Videospiele oder Markenlogos enorme Vorteile. GPT-4o kann die Ideen in mehreren kleinen Schritten bis zum finalen Design verfeinern.
Daneben soll GPT-4o auch bestehende Bilder bearbeiten können. OpenAI zeigt das am Beispiel eines handgezeichneten Comics, das abfotografiert und anschließend hochgeladen wird. ChatGPT kann dann anhand eurer Beschreibung die Zeichnung umsetzen, mit Farben versehen und sogar Elemente austauschen. So wird aus dem Drachen etwa ein Pinguin, ohne andere Elemente des Bildes – wie die Textblasen – durcheinanderzubringen.
Welche Limitierungen GPT-4o mit sich bringt
Zunächst wird die GPT-4o-Bildgenerierung an Plus-, Pro- und Team-Accounts sowie an User:innen der Gratis-Version ausgerollt. Letztere müssen sich aber mit den Limitierungen abfinden, die schon bei Dall-E galten. Dementsprechend könnt ihr nur wenige Bilder pro Tag generieren lassen. Enterprise- und Edu-Nutzer:innen sollen später Zugriff auf das neue Modell bekommen. Dall-E steht euch auch vorerst weiterhin zur Verfügung – wenn auch nur über eine Custom-GPT.
OpenAI gibt zu, dass es noch zu Problemen bei der Nutzung der neuen Bildgenerierung kommen kann. So kommt es immer noch zu Halluzinationen. Bei der Erstellung einer Weltkarte mit allen Länderhauptstädten nennt ChatGPT nur Ländernamen, erfindet neue Begriffe und führt Länder doppelt auf. Zudem kann es bei besonders großen Bildern dazu kommen, dass die KI Teile des Bildes abschneidet. OpenAI verspricht, an diesen Problemen zu arbeiten und sie nach dem Launch zu verbessern.
Zudem betont OpenAI, dass Sicherheitsmaßnahmen dafür sorgen sollen, dass kein Unfug mit dem Modell getrieben wird. So werden Anfragen zu Deepfakes geblockt. Zusätzlich gibt es strenge Regeln, wenn Nacktheit und Gewalt in Verbindung mit realen Personen dargestellt werden sollen. Ferner soll sich ChatGPT weigern, Wasserzeichen aus schon bestehenden Bildern zu entfernen.