Im April 2022 hatte OpenAI mit Dall-E 2 eine verbesserte Version seiner im Januar 2022 vorgestellten und von KI-Fans begeistert aufgenommenen Bild-KI an den Start gebracht. Das neue System versprach bei der Generierung von Bildern aus textlichen Anforderungen eine höhere Auflösung und mehr Geschwindigkeit beim Rendering. Auch die Bearbeitung der Bilder ist seitdem – zumindest für jene, die Zugang dazu haben – möglich. Vor wenigen Tagen erst legte Google mit Imagen nach. Das System des Suchmaschinenkonzerns soll jenes von OpenAI noch übertreffen. Aber Dall-E 2 könnte eine eigene Sprache entwickelt haben.
Dall-E 2 generiert seltsame Vokabeln
Davon zumindest zeigt sich Giannis Daras, Doktorand der Computerwissenschaften an der University of Texas in Austin, überzeugt. In einem Twitter-Thread, der mittlerweile viral gegangen ist, zeigt er ein von dem Algorithmus generiertes Bild, das zwei Bauern zeigen soll, die über Gemüse reden. In den Sprechblasen fügte Dall-E 2 anhand dieser Vorgabe auf den ersten Blick seltsame Buchstabenkombinationen ein, etwa das Wort „Vicootes(s)“. Gibt man dieses Wort in die Suche der Bild-KI ein, spuckt Dall-E 2 Bilder von Gemüse oder Gerichten mit Gemüse aus. Der ebenfalls in dem Bauernbild vorkommende Text „Apoploe vesrreaitars“ erbringt eine Vielzahl an Vogelbildern.
Daras schließt daraus, dass sich die beiden Bauern über Vögel reden, die mit ihrem Gemüse herumspielen. In einem weiteren Beispiel hat Dall-E 2 auf Anweisung zwei Wale generiert, die über Essen reden sollen. Der in einer entsprechenden Sprechblase enthaltene Text „Wa ch zod (ahaakes) rea“ erscheint ebenfalls zunächst völlig sinnlos. Lässt man das System dann mit dieser Wortkombination Bilder erstellen, kommen verschiedene Bilder von Fischen und Meeresfrüchten heraus. Die Ergebnisse seiner Untersuchungen hat Daras übrigens in einer Studie veröffentlicht, die allerdings noch nicht von anderen Forscher:innen auf Herz und Niere überprüft worden ist.
Bild-KI: Eigene Sprache oder Zufall?
Schon jetzt stoßen Daras‘ Erkenntnisse aber auf Kritik, wie Futurism schreibt. Der Analyst Benjamin Hilton etwa sieht in der angeblichen Dall-E-2-Sprache einen Zufall. Möglich sei auch, dass Daras zu viel hineininterpretiere und es sich bei seiner Entdeckung lediglich um Shortcuts der Bild-KI handele, die beim Umwandeln der Bilder in Code entstanden seien. Mal schauen, wie die Gemeinschaft der Forscher:innen die Studie aufnimmt. Von großer Bedeutung ist laut Daras das KI-Wortspiel aber in jedem Fall aus Sicherheitsgründen. Denn mit den unbekannten Vokabeln könnten die OpenAI-Richtlinien bei der Eingabe von Text umgangen werden.