Forscher des Electronics and Telecommunications Research Institute (ETRI) in Südkorea haben fünf neue KI-Modelle vorgestellt. Darunter sticht besonders die Bild-KI Koala hervor.

Koala kann Bilder basierend auf Textbeschreibungen erstellen, indem es generative KI mit visueller Intelligenz kombiniert. So generiert Koala Bilder in nur zwei Sekunden – was es deutlich schneller macht als ähnliche Modelle auf dem Markt.

Die KI gibt es in drei Varianten, die sich in der Anzahl ihrer Parameter unterscheiden: Es gibt Versionen mit 1,7 Milliarden, 1 Milliarde und 700 Millionen Parametern. Weniger Parameter führen in der Regel zu schnellerer Generierungszeit und geringerem Rechenaufwand.

Deutlich schneller als die Konkurrenz

Um die Geschwindigkeit des Koala-Modells mit 700 Millionen Parametern zu demonstrieren, haben die Forscher des ETRI gegenüber Tech Xplore ein Beispiel präsentiert. Für den Prompt „Astronaut, der unter dem Mond auf dem Mars ein Buch liest“ erstellte Koala ein Bild in nur 1,6 Sekunden.

Im Vergleich dazu benötigte Dall-E 2 von OpenAI 12,3 Sekunden und Dall-E 3 sogar 13,7 Sekunden, während Karlo von Kakao Brain mit 3,8 Sekunden annähernd mithalten konnte.

Die Modelle sind kostenlos in der Hugging-Face-Umgebung verfügbar, wo Benutzer sie direkt mit Konkurrenzmodellen wie Dall-E, Stable Diffusion, Karlo und mehr vergleichen können. Nutzer können einfach einen Prompt eingeben und alle KI generieren gleichzeitig ein Bild.

In unseren Tests führte dies jedoch bei vielen Modellen zu Fehlermeldungen. Besser funktioniert es, wenn die Bilder nacheinander mit den unterschiedlichen Modellen generiert werden.

ETRI veröffentlicht weitere Modelle

Neben Koala hat das ETRI noch weitere KI-Modelle vorgestellt, zum Beispiel Ko-LLaVA, ein visuelles Sprachmodell, das visuelle Intelligenz mit Sprach-KI kombiniert. Dieses Modell ist in der Lage, Bilder und Videos zu analysieren und sich darüber auf Koreanisch auszutauschen.

Ein weiteres Modell ist KEByT5, das speziell entwickelt wurde, um die koreanischen Sprache zu verstehen und damit zu arbeiten. Es kann neue Wortprägungen und Worte, die nicht in den Trainingsdaten enthalten sind, verstehen.

Das Team betonte, dass das Kernpatent dieser Technologie auf der Wissensdestillation basiert. Diese Technik ermöglicht es kleineren Modellen, die Funktionen größerer Modelle zu übernehmen, indem sie mithilfe von KI Wissen effizient ansammeln.

