Anzeige
Anzeige
MIT Technology Review Analyse

Das große Deepseek-Rätsel: Wie konnte die KI trotz US-Sanktionen entstehen?

Das China-LLM DeepSeek sorgt derzeit im App-Store für Furore – und bei den Aktien der amerikanischen KI-Firmen für Kursstürze. Doch wie wurde das System überhaupt entwickelt, wo doch strenge Ausfuhrkontrollen für US-Hightech gelten?

Von MIT Technology Review Online
6 Min.
Artikel merken
Anzeige
Anzeige

Deepseek kann mehr, als die US-Konkurrenz erwartet hätte. Nur wie? (Bild: Midjourney/t3n)

„Das könnte eine Art ausgleichende Gerechtigkeit sein, die für Forscher und Entwickler mit begrenzten Ressourcen, insbesondere im Globalen Süden, von großem Nutzen ist“, sagt Hancheng Cao, Assistenzprofessor für Informationssysteme an der Emory University, um jene Vorgänge zu umschreiben, die seit einigen Tagen beim Wirbel um das chinesische große Sprachmodell Deepseek passiert sind.

Anzeige
Anzeige

Der Erfolg des Systems, das zu Wochenbeginn Kurse bei Nvidia und anderen amerikanischen KI-Spezialisten einbrechen ließ, ist umso bemerkenswerter, wenn man die Einschränkungen bedenkt, mit denen chinesische Startups in diesem Bereich aufgrund der zunehmenden US-Exportkontrollen für hochmoderne Chips konfrontiert sind. Erste Spuren deuten jedoch darauf hin, dass diese Maßnahmen nicht wie beabsichtigt greifen. Anstatt Chinas KI-Fähigkeiten zu schwächen, scheinen die Sanktionen Startups wie Deepseek zu Innovationen zu veranlassen, bei denen Effizienz, Ressourcenbündelung und Kooperation mit anderen lokalen Firmen und Forschern im Vordergrund stehen.

Welche Hardware bei Deepseek im Einsatz ist

Um R1, wie das Reasoning-System von Deepseek heißt, zu entwickeln, musste die Firma seinen Trainingsprozess überarbeiten, um die Belastung vorhandener GPUs zu reduzieren. Es soll sich dabei, behauptet das Unternehmen, um von Nvidia speziell für den chinesischen Markt herausgebrachte Variante. Deren Leistung entspreche ungefähr der Hälfte dessen, was die US-Spitzenprodukte können, sagt Zihan Wang, zuvor bei Deepseek beschäftigt und aktuell im Doktorandenpool für Informatik an der amerikanischen Northwestern University.

Anzeige
Anzeige

Und dennoch wird Deepseek R1 von Experten für seine Fähigkeit gelobt, komplexe Denkaufgaben zu bewältigen, insbesondere in den Bereichen Mathematik und Programmierung. Das Modell verwendet dazu einen „Chain of Thought“-Ansatz, ähnlich dem von ChatGPT o1, der es ermöglicht, Probleme durch schrittweise Verarbeitung von Abfragen zu lösen. Man kann dem Modell dabei zusehen, weil es die entsprechenden Gedankenschritte vorab verrät. Doch so komplex wie die Konkurrenz ist es dabei nicht.

Weniger Beschreibungen, mehr Ergebnisse

Das muss kein Widerspruch sein. Dimitris Papailiopoulos, leitender Wissenschaftler im Forschungslabor AI Frontiers von Microsoft, erzählt, dass ihn an R1 vor allem die scheinbare Einfachheit der Technik überrascht hat. „Deepseek strebt nach genauen Antworten, anstatt jeden logischen Schritt im Detail zu beschreiben, was die Rechenzeit erheblich verkürzt und gleichzeitig ein hohes Maß an Effektivität beibehält“, sagt er.

Anzeige
Anzeige

Deepseek hat außerdem sechs kleinere Varianten von R1 herausgebracht, die leicht genug sind, um lokal auf Laptops ausgeführt zu werden. Die chinesische Firma behauptet gar, dass eines davon sogar OpenAIs o1-mini bei bestimmten Benchmarks übertrifft. „Deepseek hat o1-mini weitgehend repliziert und als Open Source verfügbar gemacht“, twitterte Aravind Srinivas, CEO der KI-Suchmaschine Perplexity. Replizieren kann auch heißen: Deepseek nutzt die vorhandene Technik – auf welche Art auch immer. Auf eine Anfrage von MIT Technology Review reagierte die Firma nicht.

Wie ist Deepseek entstanden?

Trotz des aktuellen Hypes um R1 ist Deepseek kaum bekannt, ja geradezu mysteriös. Das Unternehmen mit Sitz in Hangzhou wurde im Juli 2023 von Liang Wenfeng gegründet, einem Absolventen der Zhejiang-Universität mit einem Background in Informations- und Elektrotechnik. Das Unternehmen wurde von High-Flyer, einem Hedgefonds, den Liang bereits 2015 gründete, ins Leben gerufen. Wie Sam Altman von OpenAI strebt Liang den Aufbau einer Künstlichen allgemeinen Intelligenz (Artificial General Intelligence, AGI) an, einer Form der KI, die Menschen bei mindestens einer Reihe von Aufgaben ebenbürtig ist oder sie sogar übertrifft.

Anzeige
Anzeige

Das Training großer Sprachmodelle (LLMs) erfordert ein Team hoch-qualifizierter Wissenschaftler und erhebliche Rechenleistung. In einem kürzlich geführten Interview mit dem chinesischen Medienunternehmen LatePost sagte Kai-Fu Lee, erfahrener Unternehmer und ehemaliger Leiter von Google China, dass sich in der Regel nur die Player an der Spitze mit der Entwicklung von Basismodellen wie ChatGPT befassen. Denn die sind ressourcenintensiv. Die Situation wird durch die US-Exportkontrollen für die notwendigen High-End-Chips noch komplizierter. Die Entscheidung von High-Flyer, sich in den KI-Bereich vorzuwagen, steht jedoch offenbar in direktem Zusammenhang mit diesen Einschränkungen.

Deepseek hat frühzeitig viele GPUs gehortet

Lange vor den erwarteten Sanktionen erwarb Liang nämlich einen beträchtlichen Vorrat an Nvidia A100-Chips, einem Typ, dessen Export nach China inzwischen auch verboten ist. Das chinesische Medienunternehmen 36Kr schätzt, dass das Unternehmen über 10.000 Einheiten der GPUs auf Lager hat, aber Dylan Patel, Gründer des KI-Forschungsberatungsunternehmens Semianalysis, glaubt sogar an mindestens 50.000. Liangs Gründung von Deepseek sollte diesen vorhandenen Schatz nutzen, auch wenn die Chips eine mittlerweile überholte Leistung haben.

Technologiegiganten wie Alibaba und ByteDance (Mutter von TikTok) sowie eine Handvoll Startups mit finanzstarken Investoren dominieren bislang den chinesischen KI-Sektor, was es für kleine und mittlere Unternehmen schwierig macht, im Wettbewerb zu bestehen. Ein Unternehmen wie Deepseek, das keine expliziten Pläne zu haben scheint, Investorengelder zu beschaffen, ist selten. Wang, wie erwähnt ehemals bei Deepseek beschäftigt, berichtet im Interview, dass er bei seiner Arbeit bei Deepseek Zugang zu großen Rechenressourcen hatte – und die Freiheit, zu experimentieren – „ein Luxus, den nur wenige frischgebackene Absolventen in so einem Unternehmen genießen“.

Anzeige
Anzeige

„Hardware-Herausforderung mit Innovation annehmen“

In einem eigenen Interview mit dem chinesischen Medienunternehmen 36Kr im Juli 2024 sagte Liang, dass eine zusätzliche Herausforderung für chinesische Unternehmen neben den Chipsanktionen darin besteht, dass ihre KI-Entwicklungsverfahren tendenziell weniger effizient sind. „[Die meisten chinesischen Unternehmen] brauchen die doppelte Rechenleistung, um die gleichen Ergebnisse zu erzielen. In Kombination mit Lücken bei der Dateneffizienz kann dies bedeuten, dass wir bis zu viermal mehr Rechenleistung benötigen. Unser Ziel ist es, diese Hürde kontinuierlich abzubauen.“

Deepseek hat dabei offenbar Wege gefunden, den Speicherverbrauch zu reduzieren und die Berechnung zu beschleunigen, ohne die Genauigkeit wesentlich zu beeinträchtigen. „Das Deepseek-Team liebt es, diese Hardware-Herausforderung mit Innovationen anzunehmen“, sagt Wang. Liang selbst ist nach wie vor stark in den Forschungsprozess von DeepSeek eingebunden und führt gemeinsam mit seinem Team Experimente durch. „Das gesamte Team teilt eine Kultur der Zusammenarbeit und die Liebe für Hardcore-Forschung.“

36 Prozent der LLMs aus China

Chinesische Unternehmen legen scheinbar nicht nur Wert auf Effizienz, sondern setzen auch zunehmend auf Open-Source-Prinzipien. Alibaba Cloud hat über 100 neue Open-Source-KI-Modelle veröffentlicht, die 29 Sprachen unterstützen und für verschiedene Anwendungen, einschließlich Programmierung und Mathematik, geeignet sind. In ähnlicher Weise haben Startups wie Minimax und 01.AI ihre Modelle quelloffen veröffentlicht. Wie immer bei KI heißt das allerdings, dass nicht alle Trainingsdaten bereitstehen.

Anzeige
Anzeige

Laut einem im vergangenen Jahr von der China Academy of Information and Communications Technology, einem staatlichen Forschungsinstitut, veröffentlichten Whitepaper hat die Zahl der großen KI-Sprachmodelle weltweit 1.328 erreicht, wobei 36 Prozent aus China stammen. Damit wäre China nach den USA der zweitgrößte Anbieter im Bereich KI. „Diese Generation junger chinesischer Forscher identifiziert sich stark mit der Open-Source-Kultur, weil sie so sehr davon profitiert“, sagt Thomas Qitong Cao, Assistenzprofessor für Technologiepolitik an der Tufts University.

„Die US-Exportkontrollen haben chinesische Unternehmen im Grunde in eine Ecke gedrängt, in der sie mit ihren begrenzten Rechenressourcen viel effizienter umgehen müssen“, sagt Matt Sheehan, KI-Forscher beim Carnegie Endowment for International Peace. Man werde in Zukunft wahrscheinlich eine starke Konsolidierung erleben, die mit diesem Mangel an Rechenleistung zusammenhängt.

Die könnte, trotz der Deepseek-Erfolge, bereits begonnen haben. Vor zwei Wochen gab Alibaba Cloud bekannt, dass es eine Partnerschaft mit dem in Peking ansässigen Startup 01.AI eingegangen ist, das von Kai-Fu Lee gegründet wurde, um Forschungsteams zusammenzulegen und ein „industrielles Großmodelllabor“ einzurichten. „Es ist energieeffizient und sinnvoll, dass in der KI-Branche eine Art Arbeitsteilung entsteht“, sagt Cao, der Tufts-Professor. „Die rasante Entwicklung der KI verlangt von chinesischen Unternehmen Agilität, um zu überleben.“ Wie die USA darauf reagieren, bleibt spannend.

Dieser Artikel stammt von Caiwei Chen. Sie ist China-Reporterin der US-amerikanischen Ausgabe von MIT Technology Review und schreibt über alles, was mit dem Reich der Mitte und dessen Platz in der Technikwelt zu tun hat.
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige