KI-Startup DeepSeek aus China macht ernst: Neue Trainingsmethode soll andere Sprachmodelle abhängen

KI-Senkrechtsstarter Deepseek aus dem chinesischen Hangzhou hat in Zusammenarbeit mit der Tsinghua-Universität mit Sitz in Peking eine neue Optimierungsmethode vorgestellt, die Sprachmodelle besser auf menschliche Präferenzen ausrichten soll. Die Vorstellung kommt laut South China Morning Post zu einem spannenden Zeitpunkt: Der Nachfolger des erfolgreichen Reasoning-Modells Deepseek-R1 soll nämlich kurz vor der Veröffentlichung stehen.
Mit dem nun präsentierten Verfahren verbindet Deepseek zwei bislang getrennt angewandte Ansätze miteinander: Generative Reward Modelling (GRM) und Self-Principled Critique Tuning. GRM generiert eigene Belohnungssignale, statt sich auf externe Bewertungsdaten zu stützen. Das ergänzende Tuning-Verfahren lässt das Modell seine eigenen Antworten nach Prinzipien bewerten, die es selbst gelernt hat.
Das Ziel der kombinierten Methode besteht den Forscher:innen zufolge darin, große Sprachmodelle schneller und präziser auf offene Fragen reagieren zu lassen – und dabei nicht nur technologische Benchmarks zu schlagen, sondern auch echte Nutzer:innen-Bedürfnisse zu befriedigen.
Deshalb hat die neue Methode Potenzial
Laut einem auf der Plattform Arxiv veröffentlichten Fachartikel übertrafen die daraus entstandenen Deepseek-Modelle bereits bestehende Methoden. Die Forscher:innen schreiben, dass sie mit bisherigen Belohnungsmodellen konkurrieren konnten – was das Verfahren zu einer vielversprechenden Alternative zu bestehenden Ansätzen mache.
Belohnungsmodellierung ist ein zentraler Bestandteil moderner KI-Entwicklung. Sie soll sicherstellen, dass Modelle nicht nur logisch korrekte, sondern auch gesellschaftlich erwünschte Antworten geben. Genau hier setzt Deepseek mit seinem neuen Doppelschritt an: Der eine Teil bewertet Vorschläge rein rechnerisch, der andere prüft sie nach erlernten Prinzipien – wie eine zweite, kritischere Instanz. So sollen Antworten entstehen, die nicht nur schneller kommen, sondern auch besser begründet sind.
Deepseeks Modell R2 in den Startlöchern – China feiert Startup als KI-Hoffnungsträger
Parallel zu dieser Veröffentlichung brodelt die Gerüchteküche rund um das nächste Modell der Firma. Deepseek-R2, der Nachfolger des überraschend leistungsfähigen R1, könnte laut einem Bericht der Nachrichtenagentur Reuters noch in diesem Monat erscheinen. Offiziell bestätigt wurde das bislang nicht.
Das Unternehmen selbst bleibt damit seiner Linie treu: Während US-Startups wie OpenAI oder Anthropic offensiv kommunizieren, setzt Deepseek bislang konsequent auf Understatement – und investiert still in Forschung und Open Source.
Dass dabei kaum jemand öffentlich über Finanzierungsquellen, institutionelle Verflechtungen oder politische Einflussnahmen spricht, passt ins Bild: Chinas KI-Strategie setzt nicht nur auf technischen Fortschritt, sondern auch auf kontrollierte Sichtbarkeit – nach außen wie nach innen.
Zwar hatte Deepseek bereits im Februar mehrere Code-Repositories veröffentlicht und angekündigt, künftig mit „voller Transparenz“ weiterzuentwickeln. Die jetzt vorgestellten GRM-Modelle sollen ebenfalls quelloffen zur Verfügung gestellt werden. Ein Datum dafür nannten die Forscher:innen aber nicht, es bleibt abzuwarten, was es mit dem Transparenzversprechen tatsächlich auf sich hat.
Deepseek-Gründer Liang Wenfeng, 40, hatte Ende Februar an einem Treffen mit Tech-Unternehmer:innen in Peking teilgenommen, zu dem Chinas Staatspräsident Xi Jinping persönlich eingeladen hatte. Dass Deepseek dort als Hoffnungsträger gefeiert wurde, überrascht nicht. Während die USA versuchen, Chinas technologischen Fortschritt zu bremsen, zeigt das Startup als leuchtendes Beispiel, wie ernst China die eigene technologische Unabhängigkeit im KI-Sektor nimmt.