Deepseek will jetzt auch Dall-E übertrumpfen: Das kann die neue Bild-KI aus China

Zwei Jahre lang galt OpenAI als eines der fortschrittlichen Unternehmen im KI-Bereich. Mit einem Milliarden-Deal sicherte sich Microsoft die Technik, das Unternehmen von CEO Sam Altman ist außerdem als eine von drei Säulen in Donald Trumps Stargate-Projekt involviert, das in Summe sogar 500 Milliarden US-Dollar kosten soll. Doch quasi über Nacht scheint mit Deepseek ein Herausforderer aus China nicht nur OpenAI, sondern auch andere Unternehmen wie Meta zu übertrumpfen – und die Hersteller ins Schwitzen zu bringen.
Janus-Pro-7B besser als Dall-E und Stable Diffusion?
Zuerst überholte das Modell Deepseek R1 die Gegenstücke von OpenAI nicht nur in Benchmarks, die zugehörige App verbannte ChatGPT in den App-Store-Charts auch auf den zweiten Platz. Jetzt folgt mit Janus-Pro eine Familie an multimodalen Modellen, die die Konkurrenz abhängen sollen. Das behauptet Deepseek in einem Beitrag auf der Plattform Hugging Face zumindest selbst. „Janus-Pro übertrifft frühere vereinheitlichte Modelle und erreicht oder übertrifft die Leistung von aufgabenspezifischen Modellen“, heißt es da.
Laut Techcrunch und Reuters behauptet Deekseek zudem, dass das größte Modell, Janus-Pro-7B, Dalle-E3 von OpenAI und Stable Diffusion von Stability AI bei der Bilderstellung nach Textprompt in zwei KI-Benchmarks hinter sich gelassen habe.
Details zu Janus-Pro
Die Janus-Pro-Modelle verwenden zwischen einem und sieben Milliarden Parameter. Zum Vergleich: Laut OpenAI nutzt Dall-E zwölf Milliarden Parameter. Deepseeks Modelle können Bilder auf Promot nicht nur erstellen, sondern auch analysieren. Dass mehr nicht immer besser ist, zeigt das Unternehmen mit seinem Chatbot. Dem stehen in der Theorie 671 Milliarden Parameter zur Verfügung, bei der Ausführung kommen aber nur 37 Milliarden zum Einsatz. Dafür sind deutlich weniger Hardware-Ressourcen erforderlich. Auch bei Janus-Pro lobt Techcrunch die Performance gemessen an der Modellgröße als „beeindruckend“.
Die Bildanalyse funktioniert allerdings nur mit Material mit einer Auflösung von 384 x 384 Pixeln oder weniger. Das Vorgängermodell, das schlicht Janus heißt, sollen die Pro-Varianten durch Verbesserung der Trainingsprozesse, der Datenqualität und der Modellgröße übertreffen. Das führe zu einer verbesserten Bildstabilität und mehr Detailreichtum, heißt es bei Reuters.
Wie sich die Bild-KI schlussendlich in der Praxis schlägt, bleibt zunächst abzuwarten. Bei einer kurzen Probe entpuppte sich der Deepseek-Chatbot als linientreu. Das Unternehmen sei der „der sozialen Moral Chinas“ verpflichtet. Deswegen verweigerte der Chatbot die Ausgabe einer Antwort auf eine Frage nach dem Tiananmen-Massaker. Gut möglich, dass die Bild-KI ähnlichen Restriktionen unterliegt.
Janus-Pro-Modelle stehen unter der MIT-Lizenz. Sie können kommerziell und ohne Einschränkungen genutzt und bei Hugging Face und Github kostenlos heruntergeladen werden.