Anzeige
Anzeige
News

KI-Generator Imagen malt dir einen Corgi, der in einem Sushi-Haus wohnt

Eine KI, die auf Zuruf Grafiken und Bilder erstellt: Das war eine Sensation bei dem Text-Bild-Generator „Dall-E 2“. Nun zieht Google mit „Imagen“ nach – mit beeindruckenden Ergebnissen.

2 Min.
Artikel merken
Anzeige
Anzeige

Wer dem Bildgenerator aufträgt, einen süßen Corgi zu malen, der in einem Sushi-Haus wohnt, könnte so ein Bild erhalten. (Bild: Google Imagen)

Google fordert Open AI heraus: Gegen den Text-Bild-Generator Dall-E 2 hat der Suchmaschinen-Multi nun die Software Imagen ins Rennen geschickt. Das KI-basierte Tool biete „einen noch nie dagewesenen Grad an Fotorealismus und ein tiefes Sprachverständnis“, verspricht der Hersteller. Um die beiden Konkurrenten vergleichen zu können, haben Google-Forscher:innen ein eigenes Benchmark-Tool herausgebracht. Dessen Ergebnisse sollen die Überlegenheit der Google-Software beweisen. Das Research-Team veröffentlichte sie in einer eigenen Studie.

Text-Encoder basiert auf mehreren Sprachmodellen

Anzeige
Anzeige

Die Software besteht prinzipiell aus einem Text-Encoder, der die sprachliche Anforderung übersetzt. Für die richtige Visualisierung ist ein hohes Sprachverständnis nötig, weshalb die Entwickler:innen hierfür maschinelles Lernen einsetzen. Als Grundlage dienen große Sprachmodelle wie Bert, T5 und Clip. Die Verfasser haben verschiedene Modelle kombiniert und „vorgelernt“. Sie kommen zu dem Ergebnis, dass ihre Methode den anderen voraus ist. Sie verbrauche zudem weniger Speicher, konvertiere schneller und besitze eine bessere Stichprobenqualität mit schnellerer Inferenz.

15 lustige von KI generierte Bilder Quelle: Google

Bilderzeugung: Dall-E 2 analysiert und geschlagen

Die eingesetzten Diffusionsmodelle – also die eigentlichen Bildgeneratoren – seien genauer und diverser als die der Konkurrenz, schreiben die Google-Fachleute. Imagen erziele im Benchmark Coco Fid höhere Werte als die Software von Open AI. Dabei nehmen die Verfasser:innen zum einen Bezug auf die Leistung des Text-Encoders, der eine multimodale Einbettung von Clip verwendet. Man habe darlegen können, dass die vortrainierten Modelle, wie Imagen sie verwendet, eindeutige Vorteile besitzen. So habe das Konkurrenzprodukt häufiger Probleme in der Zuordnung von Adjektiven und Objekten. Zum anderen sei auch die Bilderzeugung über das neue dynamische Schwellenwertverfahren und kaskadierte Diffusionsmodelle besonders effektiv.

Anzeige
Anzeige
Google Imagen vs. OpenAI Dall-E 2

Nach eigenen Angaben schlägt der eigene Bildgenerator von Google alle anderen. (Tabelle: Google Research)

Neuer Benchmark: Drawbench

Doch das reichte dem Team nicht. Der Coco-Benchmark sei auf das Bewerten von statischen State-of-the-Art-Modellen trainiert und daher eigentlich nicht optimal geeignet. Es entwickelte deshalb „Drawbench“. Dieser Benchmark basiert auf den Aussagen menschlicher Bewerter. Die ermögliche tiefere Einblicke durch eine mehrdimensionale Evaluierung der Modelle etwa in Hinblick auf Kardinalität, räumliche Beziehungen sowie die Fähigkeit, komplexe Texteinbettungen einzuordnen – auch mit seltenen Wörtern. Die menschliche Bewertung habe diverse Vorteile gegenüber den Scorings anderer Systeme. Imagen schneidet auch im Drawbench besser ab als der Konkurrent aus dem Hause Open AI.

Anzeige
Anzeige
Google IMagen vs Open AI Dall-E2

Bei den Tests soll der Dall-E-2-Generator immer mal wieder Dinge durcheinandergebracht haben. (Bilder: Google Research)

Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige