
Die KI soll richtig schreiben können. (Foto: Shutterstock / sizsus art)
Deepfloyd IF ist eine neue Text-zu-Bild-KI von Deepfloyd, einem Forschungsunternehmen, das zu Stability AI gehört. Das ist das Unternehmen, das Stable Diffusion entwickelt hat. Deepfloyd IF soll dabei mehr können als bisherige KI dieser Art.
Die KI ist auf GitHub als Open-Source-Software verfügbar. Eines der Killer-Features soll sein, dass Deepfloyd richtige Texte in den Bildern kreieren kann. Viele Text-zu-Bild-KI schreiben entweder in Hieroglyphen oder erfinden ihre eigene Sprache.
Einige Beispiele davon teilt der offizielle Twitter-Account des Unternehmens. Auf einem Bild sind die Worte „Really Soon“ in Wolken geschrieben, die über einer Wasseroberfläche fliegen. Mit bisherigen Bild-KI wäre das wahrscheinlich problematisch gewesen.
Deepfloyd IF kann Textprompts besser verstehen
Außerdem soll Deepfloyd dazu in der Lage sein, Textprompts besser zu verstehen. Das möchte der Twitter-Nutzer „EBFrench“ zeigen, der einen Vergleich von Deepfloyd zu Midjourney V4 auf der Website postet.
Seinen Aussagen zufolge hat er für beide Bilder den gleichen Textprompt verwendet. Es fällt direkt auf, dass der Text auf den linken Bildern, die von Deepfloyd erstellt wurden, klar zu lesen ist, während auf der rechten Seite unleserliche oder erfundene Wörter stehen.
„EBFrench“ merkt außerdem an, dass Midjourney Probleme hat, die Identitäten der beiden Personen zu unterscheiden. Denn im Prompt möchte er oder sie eine asiatische und eine indische Person generiert bekommen. Ebenso fällt allerdings auf, dass die beiden Menschen sich auf den Bildern von Deepfloyd nicht ansehen, wie es im Prompt gefordert war.