Warum Deepseek R1 nicht das Ende von OpenAI und Meta bedeutet

(Foto: Mojahid Mottakin / Shutterstock.com)
Für die US-Öffentlichkeit ist die Veröffentlichung des chinesischen KI-Modells R1 ein Déjà-vu der unangenehmen Art. Es erinnert an die Demütigung durch die Sowjetunion 1957, die ihre technische Überlegenheit über die USA mit dem Flug des ersten Weltraum-Satelliten demonstrierte. Denn R1 ist nicht nur ähnlich gut wie o1 von OpenAI, es ist auch viel effizienter, hat nur einen Bruchteil für das Training gekostet – es ist auch komplett Open Source.
Panik und Verleugnung bringen nicht weiter
Die ersten Reaktionen auf das Modell reichen von nackter Panik – die Aktien von KI-Chiphersteller Nvidia gingen in den Keller – über Fatalismus – die Chinesen haben das KI-Rennen gewonnen, die US-Ausfuhrbeschränkungen waren sinnlos – bis hin zur Leugnung der Realität. So verbreitet beispielsweise der Tech-Investor Neal Khosla, die Veröffentlichung von R1 sei nur eine Operation der psychologischen Kriegsführung der Chinesen, mit dem Ziel, die US-Wirtschaft zu destabilisieren. Ein nüchterner Blick auf die technischen Hintergründe zeigt aber, dass Deepseeks R1 alleine nicht das Ende des Silicon Valley einläuten wird. Dafür gibt es mehrere Gründe.
Deepseek ist technisch gut gemacht, aber kein Durchbruch
Das Paper, das zu dem Modell veröffentlicht wurde, ist von Fachleuten gelobt worden. Auf der technischen Ebene enthält es aber keine grundsätzlichen Neuerungen. Alle Technologien, die darin verwendet werden, sind bereits bekannt.
R1 ist ein Reasoning-Modell, in dessen Kern ein großes Sprachmodell steckt. Das zerlegt Aufgaben in kleinere Teilaufgaben, die es der Reihe nach Punkt für Punkt abarbeitet – in einer gedanklichen Kette (Chain of Thought). Anschließend sucht die Software die beste/genaueste/schnellste Kette und veröffentlicht ihr Ergebnis als Antwort. Um zu lernen, welches die jeweils beste Gedankenkette ist, wurden der Software wiederum im Training viele Beispiele „guter“ Gedankenketten präsentiert.
Gehortete KI-Chips halfen beim Training
Die Effizienz beim Training und der Ausführung des Modells ist vermutlich das Ergebnis von Vorläufer-Arbeiten, bei denen weniger effiziente große Modelle heuristische Verfahren und Trainingsdaten erzeugen, mit denen dann kleinere Modelle effizient trainiert werden können. Ähnlich ist Meta bei seinen Llama-Modelle vorgegangen.
Das war nur möglich, weil das Training der Deepseek-Modelle bereits begonnen hatte, als die Ausfuhrbeschränkungen für KI-Chips noch relativ weich waren. Zahlreiche chinesische Unternehmen – so auch Deepseek – hatten sich zu dieser Zeit noch mit großen Mengen der leistungsstarken A100-Chips von Nvidia eingedeckt.
Sanktionen erhöhen Innovationsdruck
Man kann also aus der Veröffentlichung von R1 nicht schließen, dass die US-Exportbeschränkungen nichts gebracht hätten. Solche Maßnahmen wirken immer nur mit einer gewissen Zeitverzögerung. Andererseits zeigt das Modell, dass der Sanktionsdruck auch als Beschleuniger technischer Entwicklung dient. Der Mangel an leistungsfähiger Hardware schafft einen enormen Anreiz, sich andere Lösungen auszudenken.
Offenheit wird nicht bleiben
Dass Deepseek das Modell jetzt komplett frei veröffentlicht hat, ist vermutlich tatsächlich eine politische Entscheidung gewesen, die OpenAI schwächen soll. Außerdem setzt die chinesische Regierung darauf, dass eine schnelle KI-Entwicklung innerhalb des Landes zu einem Produktivitätsschub führen wird. In China gibt es allerdings ein Phänomen, das die Politik dort prägt und damit auch die Bevölkerung ebenso wie die Wirtschaft: Fang-Shou, abgeleitet von den beiden Verben Fang (erholen) und Shou (anspannen). Sinngemäß also: Auf eine Phase der Öffnung und Lockerung folgt immer eine Phase Anspannung oder verstärkten Kontrolle – und umgekehrt. Nachdem die chinesische Regierung generativer KI zunächst sehr misstrauisch gegenüberstand und sie stark regulieren wollte, setzt man zurzeit eher auf Dynamik. Langfristig, argumentiert aber auch der ehemalige OpenAI-Entwickler Miles Brundage wird die chinesische Regierung kein Interesse daran haben, dass es eine Art KI-Wildwest in China gibt. Auch mit der Offenheit wird es also früher oder später wieder vorbei sein.
Erneuter Erfolg von Deepseek zunächst unwahrscheinlich
Auch wenn der Bedarf an Rechenpower bei Reasoning-Modellen viel höher ist als bei normalen Sprachmodellen, scheint die derzeit bei Deepseek vorhandene Menge an KI-Chips erst mal zu reichen, um das Modell online zu halten. Das ist ein enormer Prestige-Erfolg für die chinesische KI-Szene und tut den US-Unternehmen weh, die mit KI Geld verdienen wollen.
Das muss aber nicht so bleiben, schreibt der auf KI in China spezialisierte Online-Dienst China Talk. Denn wenn das Modell wirklich nützlich ist, wird der Bedarf danach nicht nur im Ausland sondern auch im Inland stark steigen. Dann muss irgendjemand priosieren: Wird die vorhandene Rechenkapazität genutzt, um neue Modelle zu trainieren, oder alte Modelle verstärkt zu nutzen?
Der Mangel an leistungsfähigen KI-Chips wird die chinesische KI-Szene auf absehbare Zeit also weiter ausbremsen und behindern. Wenn die Sanktionen bestehen bleiben oder sogar – wie geplant – noch weiter verschärft werden – braucht die chinesische KI-Wirtschaft den einen oder anderen grundsätzlichen technischen Durchbruch, um den Erfolg von R1 noch einmal zu wiederholen. Ob und wenn ja wann der kommt, weiß im Moment aber noch niemand.
Wenn das „Chain of Thought“-Schema sowie die anderen funktionalen Bausteine ja schon „lange bekannt“ waren oder sind (und ansonsten hier die Leistung chinesischer Experten kein „Durchbruch“ ist), frage ich mich, warum dann ein solches Modell nicht längst von amerikanischen Experten implementiert wurde. Warum fällt es t3n so schwer, einen wirklichen Fortschritt als solchen anzuerkennen? Und übrigens: Forschung und Entwicklung stehen in China schon längst nicht mehr unter der dirigistischen Knute, wie man es sich im Westen gerne einredet. Auch dort gibt es eine Vielzahl engagierter heller Köpfe, die auch intrinsisch motiviert arbeiten. Willkommen im multpolaren Zeitalter.