Mobilediffusion: Google verwandelt direkt auf dem Smartphone Texte in Bilder
Text-zu-Bild-KI wie Dall-E, Stable Diffusion oder Imagen sind schon länger bekannt, aber sie stoßen auf ein gemeinsames Hindernis: Um Bilder aus Texten zu generieren, wird viel Rechenkraft benötigt.
Normalerweise erfolgt dieser Prozess daher auf leistungsstarken PCs oder Servern. Doch Google hat nun mit Mobilediffusion eine Alternative vorgestellt. Diese neue Bild-KI kann Bilder sogar auf der vergleichsweise schwächeren Hardware eines Smartphones erstellen.
Google erklärt, Mobilediffusion könne ein 512 mal 512 Pixel großes Bild auf einem Premium-Smartphone in nur einer halben Sekunde generieren.
KI-Modell arbeitet deutlich effizienter
Mobilediffusion zeichnet sich durch eine deutlich höhere Effizienz im Vergleich zu ähnlichen Modellen aus. Während andere Modelle oft mit Milliarden von Parametern arbeiten, kommt Mobilediffusion mit nur 520 Millionen Parametern aus.
Dies wird durch den Einsatz eines speziell für Mobilgeräte entwickelten Diffusionsmodells ermöglicht, das in Kombination mit DiffusionGAN verwendet wird. Zusätzlich verbessert ein von Google eigens entwickelter Image-Decoder die Leistung des Systems.
Die Details dieses Modells haben die Forscher in einem Paper zusammengefasst, das auf dem Preprint-Server Arxiv veröffentlicht wurde.
Die neue Generation KI-Modell?
Google hat bei der Entwicklung von Mobilediffusion besonders auf die Effizienzsteigerung des Modells geachtet, sodass es auch auf der begrenzten Hardware von Smartphones effektiv funktioniert.
Dieser Schritt ist jedoch erst der Anfang. Bislang wurden nur die Ergebnisse auf High-End-Smartphones wie dem iPhone 15 Pro und dem Samsung S24 präsentiert. Es ist noch unklar, wie sich das Modell auf anderen, älteren Smartphone-Modellen verhält.
Die Optimierung von Bild-KI in Richtung höherer Effizienz könnte generell zu einer schnelleren Bildgenerierung führen und den Hardwareeinsatz minimieren.