Stable Diffusion 3 Medium: Abgespeckter KI-Bildgenerator spuckt Horrorbilder aus
Bei der Präsentation von Stable Diffusion 3, der neuesten Version des 2022 erstmals veröffentlichten quelloffenen KI-Bildgenerators, hatte Stability AI erklärt, dass dieser der Konkurrenz wie Dall-E 3 oder Midjourney V6 mindestens ebenbürtig sei. Manche Nutzer:innen fänden Stable Diffusion 3 sogar überlegen, was Eingabe und Umsetzung von Prompts angeht.
Darstellung von Menschen irritiert
Letzteres dürfte derzeit nicht mehr gelten. Denn seit Stability AI am 12. Juni 2024 mit Stable Diffusion 3 Medium eine abgespeckte neue Variante vorgestellt hat, ist das Netz vor allem eins: irritiert. Denn insbesondere was menschliche Körper angeht, macht der KI-Bildgenerator keine gute Figur, wie Ars Technica schreibt.
Auf Reddit gibt es mittlerweile mehrere Threads, in denen krasse Fehler von Stable Diffusion 3 Medium bei der Darstellung von Menschen behandelt werden. Dabei geht es vor allem um menschliche Gliedmaßen wie Hände und Füße. Titel eines der Threads: „Soll diese Veröffentlichung ein Witz sein?“
Horrorbilder bei einfachen Prompts
In einem anderen Reddit-Thread werden die Fehler bei der Darstellung menschlicher Körper seziert, wenn es um den Prompt „Mädchen, die im Gras liegen“ geht. Dabei entstehen teils krasse Horrorbilder. Nutzer:innen können sich in einer entsprechenden Demoversion des KI-Bildgenerators bei huggingface.com selbst ein Bild davon machen.
Dazu einfach einen Prompt wie „A Girl lying in the Grass“ oder „People sitting in Grass“ eingeben – und die Horrorshow kann beginnen. Während die Gesichter meist noch ganz ansehnlich daherkommen, sind die Darstellungen von Händen, Armen und Beinen zum großen Teil wirklich gruselig anzuschauen.
Wichtiger Meilenstein für generative KI?
Dabei hatte Stability den Launch von Stable Diffusion 3 Medium als „einen wichtigen Meilenstein bei der Weiterentwicklung der generativen KI“ gefeiert und „ein neues Level von Fotorealismus“ versprochen. Und das, ohne dass dazu komplizierte Schritte notwendig seien.
Dazu soll die abgespeckte Variante aufgrund ihrer nicht allzu hohen Anforderungen an die Hardware auch auf normalen Computern laufen können, ohne die Performance zu beeinträchtigen. Und tatsächlich können sich die Hochglanzbilder aus der Stability-AI-Werbung sehen lassen – solange keine menschlichen Körper vorkommen.
Probleme mit Händen bei KI-Bildgeneratoren
Dass KI-Bildgeneratoren ihre Schwierigkeiten mit der Darstellung von Händen haben, ist bekannt. Aber zumindest auf den ersten Blick scheint Stable Diffusion 3 Medium dieses Problem auf ein neues Level zu heben. Mal sehen, ob Stability AI das noch irgendwie besser in den Griff bekommen kann.