Das große Deepseek-Rätsel: Wie konnte die KI trotz US-Sanktionen entstehen?
„Das könnte eine Art ausgleichende Gerechtigkeit sein, die für Forscher und Entwickler mit begrenzten Ressourcen, insbesondere im Globalen Süden, von großem Nutzen ist“, sagt Hancheng Cao, Assistenzprofessor für Informationssysteme an der Emory University, um jene Vorgänge zu umschreiben, die seit einigen Tagen beim Wirbel um das chinesische große Sprachmodell Deepseek passiert sind.
Der Erfolg des Systems, das zu Wochenbeginn Kurse bei Nvidia und anderen amerikanischen KI-Spezialisten einbrechen ließ, ist umso bemerkenswerter, wenn man die Einschränkungen bedenkt, mit denen chinesische Startups in diesem Bereich aufgrund der zunehmenden US-Exportkontrollen für hochmoderne Chips konfrontiert sind. Erste Spuren deuten jedoch darauf hin, dass diese Maßnahmen nicht wie beabsichtigt greifen. Anstatt Chinas KI-Fähigkeiten zu schwächen, scheinen die Sanktionen Startups wie Deepseek zu Innovationen zu veranlassen, bei denen Effizienz, Ressourcenbündelung und Kooperation mit anderen lokalen Firmen und Forschern im Vordergrund stehen.
Welche Hardware bei Deepseek im Einsatz ist
Um R1, wie das Reasoning-System von Deepseek heißt, zu entwickeln, musste die Firma seinen Trainingsprozess überarbeiten, um die Belastung vorhandener GPUs zu reduzieren. Es soll sich dabei, behauptet das Unternehmen, um von Nvidia speziell für den chinesischen Markt herausgebrachte Variante. Deren Leistung entspreche ungefähr der Hälfte dessen, was die US-Spitzenprodukte können, sagt Zihan Wang, zuvor bei Deepseek beschäftigt und aktuell im Doktorandenpool für Informatik an der amerikanischen Northwestern University.
Und dennoch wird Deepseek R1 von Experten für seine Fähigkeit gelobt, komplexe Denkaufgaben zu bewältigen, insbesondere in den Bereichen Mathematik und Programmierung. Das Modell verwendet dazu einen „Chain of Thought“-Ansatz, ähnlich dem von ChatGPT o1, der es ermöglicht, Probleme durch schrittweise Verarbeitung von Abfragen zu lösen. Man kann dem Modell dabei zusehen, weil es die entsprechenden Gedankenschritte vorab verrät. Doch so komplex wie die Konkurrenz ist es dabei nicht.
Weniger Beschreibungen, mehr Ergebnisse
Das muss kein Widerspruch sein. Dimitris Papailiopoulos, leitender Wissenschaftler im Forschungslabor AI Frontiers von Microsoft, erzählt, dass ihn an R1 vor allem die scheinbare Einfachheit der Technik überrascht hat. „Deepseek strebt nach genauen Antworten, anstatt jeden logischen Schritt im Detail zu beschreiben, was die Rechenzeit erheblich verkürzt und gleichzeitig ein hohes Maß an Effektivität beibehält“, sagt er.
Deepseek hat außerdem sechs kleinere Varianten von R1 herausgebracht, die leicht genug sind, um lokal auf Laptops ausgeführt zu werden. Die chinesische Firma behauptet gar, dass eines davon sogar OpenAIs o1-mini bei bestimmten Benchmarks übertrifft. „Deepseek hat o1-mini weitgehend repliziert und als Open Source verfügbar gemacht“, twitterte Aravind Srinivas, CEO der KI-Suchmaschine Perplexity. Replizieren kann auch heißen: Deepseek nutzt die vorhandene Technik – auf welche Art auch immer. Auf eine Anfrage von MIT Technology Review reagierte die Firma nicht.
Wie ist Deepseek entstanden?
Trotz des aktuellen Hypes um R1 ist Deepseek kaum bekannt, ja geradezu mysteriös. Das Unternehmen mit Sitz in Hangzhou wurde im Juli 2023 von Liang Wenfeng gegründet, einem Absolventen der Zhejiang-Universität mit einem Background in Informations- und Elektrotechnik. Das Unternehmen wurde von High-Flyer, einem Hedgefonds, den Liang bereits 2015 gründete, ins Leben gerufen. Wie Sam Altman von OpenAI strebt Liang den Aufbau einer Künstlichen allgemeinen Intelligenz (Artificial General Intelligence, AGI) an, einer Form der KI, die Menschen bei mindestens einer Reihe von Aufgaben ebenbürtig ist oder sie sogar übertrifft.
Das Training großer Sprachmodelle (LLMs) erfordert ein Team hoch-qualifizierter Wissenschaftler und erhebliche Rechenleistung. In einem kürzlich geführten Interview mit dem chinesischen Medienunternehmen LatePost sagte Kai-Fu Lee, erfahrener Unternehmer und ehemaliger Leiter von Google China, dass sich in der Regel nur die Player an der Spitze mit der Entwicklung von Basismodellen wie ChatGPT befassen. Denn die sind ressourcenintensiv. Die Situation wird durch die US-Exportkontrollen für die notwendigen High-End-Chips noch komplizierter. Die Entscheidung von High-Flyer, sich in den KI-Bereich vorzuwagen, steht jedoch offenbar in direktem Zusammenhang mit diesen Einschränkungen.
Deepseek hat frühzeitig viele GPUs gehortet
Lange vor den erwarteten Sanktionen erwarb Liang nämlich einen beträchtlichen Vorrat an Nvidia A100-Chips, einem Typ, dessen Export nach China inzwischen auch verboten ist. Das chinesische Medienunternehmen 36Kr schätzt, dass das Unternehmen über 10.000 Einheiten der GPUs auf Lager hat, aber Dylan Patel, Gründer des KI-Forschungsberatungsunternehmens Semianalysis, glaubt sogar an mindestens 50.000. Liangs Gründung von Deepseek sollte diesen vorhandenen Schatz nutzen, auch wenn die Chips eine mittlerweile überholte Leistung haben.
Technologiegiganten wie Alibaba und ByteDance (Mutter von TikTok) sowie eine Handvoll Startups mit finanzstarken Investoren dominieren bislang den chinesischen KI-Sektor, was es für kleine und mittlere Unternehmen schwierig macht, im Wettbewerb zu bestehen. Ein Unternehmen wie Deepseek, das keine expliziten Pläne zu haben scheint, Investorengelder zu beschaffen, ist selten. Wang, wie erwähnt ehemals bei Deepseek beschäftigt, berichtet im Interview, dass er bei seiner Arbeit bei Deepseek Zugang zu großen Rechenressourcen hatte – und die Freiheit, zu experimentieren – „ein Luxus, den nur wenige frischgebackene Absolventen in so einem Unternehmen genießen“.
„Hardware-Herausforderung mit Innovation annehmen“
In einem eigenen Interview mit dem chinesischen Medienunternehmen 36Kr im Juli 2024 sagte Liang, dass eine zusätzliche Herausforderung für chinesische Unternehmen neben den Chipsanktionen darin besteht, dass ihre KI-Entwicklungsverfahren tendenziell weniger effizient sind. „[Die meisten chinesischen Unternehmen] brauchen die doppelte Rechenleistung, um die gleichen Ergebnisse zu erzielen. In Kombination mit Lücken bei der Dateneffizienz kann dies bedeuten, dass wir bis zu viermal mehr Rechenleistung benötigen. Unser Ziel ist es, diese Hürde kontinuierlich abzubauen.“
Deepseek hat dabei offenbar Wege gefunden, den Speicherverbrauch zu reduzieren und die Berechnung zu beschleunigen, ohne die Genauigkeit wesentlich zu beeinträchtigen. „Das Deepseek-Team liebt es, diese Hardware-Herausforderung mit Innovationen anzunehmen“, sagt Wang. Liang selbst ist nach wie vor stark in den Forschungsprozess von DeepSeek eingebunden und führt gemeinsam mit seinem Team Experimente durch. „Das gesamte Team teilt eine Kultur der Zusammenarbeit und die Liebe für Hardcore-Forschung.“
36 Prozent der LLMs aus China
Chinesische Unternehmen legen scheinbar nicht nur Wert auf Effizienz, sondern setzen auch zunehmend auf Open-Source-Prinzipien. Alibaba Cloud hat über 100 neue Open-Source-KI-Modelle veröffentlicht, die 29 Sprachen unterstützen und für verschiedene Anwendungen, einschließlich Programmierung und Mathematik, geeignet sind. In ähnlicher Weise haben Startups wie Minimax und 01.AI ihre Modelle quelloffen veröffentlicht. Wie immer bei KI heißt das allerdings, dass nicht alle Trainingsdaten bereitstehen.
Laut einem im vergangenen Jahr von der China Academy of Information and Communications Technology, einem staatlichen Forschungsinstitut, veröffentlichten Whitepaper hat die Zahl der großen KI-Sprachmodelle weltweit 1.328 erreicht, wobei 36 Prozent aus China stammen. Damit wäre China nach den USA der zweitgrößte Anbieter im Bereich KI. „Diese Generation junger chinesischer Forscher identifiziert sich stark mit der Open-Source-Kultur, weil sie so sehr davon profitiert“, sagt Thomas Qitong Cao, Assistenzprofessor für Technologiepolitik an der Tufts University.
„Die US-Exportkontrollen haben chinesische Unternehmen im Grunde in eine Ecke gedrängt, in der sie mit ihren begrenzten Rechenressourcen viel effizienter umgehen müssen“, sagt Matt Sheehan, KI-Forscher beim Carnegie Endowment for International Peace. Man werde in Zukunft wahrscheinlich eine starke Konsolidierung erleben, die mit diesem Mangel an Rechenleistung zusammenhängt.
Die könnte, trotz der Deepseek-Erfolge, bereits begonnen haben. Vor zwei Wochen gab Alibaba Cloud bekannt, dass es eine Partnerschaft mit dem in Peking ansässigen Startup 01.AI eingegangen ist, das von Kai-Fu Lee gegründet wurde, um Forschungsteams zusammenzulegen und ein „industrielles Großmodelllabor“ einzurichten. „Es ist energieeffizient und sinnvoll, dass in der KI-Branche eine Art Arbeitsteilung entsteht“, sagt Cao, der Tufts-Professor. „Die rasante Entwicklung der KI verlangt von chinesischen Unternehmen Agilität, um zu überleben.“ Wie die USA darauf reagieren, bleibt spannend.