Deepseek überholt OpenAI und schickt Chipaktien auf Talfahrt: Das steckt dahinter

Nur etwas mehr als zwei Wochen nach der Veröffentlichung hat die Deepseek-App ChatGPT als am besten bewertete kostenlose KI-Anwendung im App-Store abgelöst. Ein Erfolg, der auch massive Auswirkungen auf den Aktienmarkt hat – vor allem auf Werte aus dem Chipsektor.
Die Kurse von Chipherstellern wie Nvidia oder auch des niederländischen Unternehmens ASML, das nahezu alle Halbleiterhersteller mit Maschinen für die Chipfertigung versorgt, gaben deutlich nach. Und auch im Silicon Valley sorgt Deepseek für Wirbel: Nach Recherchen von The Information soll die Arbeit des chinesischen Startups für einige Aufregung in Metas KI-Abteilung gesorgt haben.
Deepseek kann es mit OpenAI aufnehmen – und spart dabei Ressourcen
Deepseek-R1, das neuste KI-Modell des chinesischen Startups, kann es nicht nur mit GPT-o1 aufnehmen, sondern übertrifft das OpenAI-Modell in einigen Benchmarks sogar. So schneidet das chinesische Modell beispielsweise in einer Reihe von Tests besser ab, mit denen die mathematischen Fähigkeiten solcher Modelle bewertet werden. Aber auch bei der Erzeugung von Programmcode und komplexen Argumentationsketten braucht sich Deepseek-R1 nicht hinter der amerikanischen Konkurrenz zu verstecken.
Der eigentliche Clou sind aber die verschiedenen Methoden, mit denen Deepseek beim Training und der Ausführung der eigenen Modelle Hardware-Ressourcen schont – und die Performance verbessert. Dazu gehört die sogenannte Mixture-of-Experts-Architektur (MoE). Diese Technik sorgt dafür, dass für die Erfüllung einer Aufgabe nur die notwendigsten Parameter genutzt werden.
Statt also alle 671 Milliarden Parameter zu verwenden, kommen bei der Ausführung nur 37 Milliarden zum Einsatz. Das benötigt entsprechend deutlich weniger Hardware-Ressourcen und liefert dennoch überzeugende Ergebnisse.
Lokale KI: Mit diesen 5 Tools kein Problem
Eine weitere Deepseek-Innovation: Mithilfe des Multi-Head Latent Attention (MLA) können sich die KI-Modelle vereinfacht ausgedrückt auf mehrere Aspekte der Eingabedaten fokussieren, um sie so besser zu verstehen. Der Mechanismus gilt als Hauptgrund für die sehr gute Performance des Ende 2024 vorgestellten KI-Modells Deepseek-V3.
Außerdem hat Deepseek verschiedene Methoden entwickelt, um das Wissen eines KI-Modells in ein kleineres und damit effizienteres Modell zu übertragen. Auf die Art können vergleichsweise starke Modelle erzeugt werden, die aber deutlich weniger Rechenkapazität benötigen.
Deepseek setzt auf Open Source
Zwar propagiert OpenAIs Firmenname eine gewisse Offenheit, damit ist es aber schon lange vorbei. Details zu den proprietären KI-Modellen bleiben spärlich. Das hat in der Vergangenheit auch immer wieder für Kritik gesorgt – beispielsweise von Metas KI-Chef Yann LeCun oder OpenAI-Mitgründer Elon Musk.
Deepseek wiederum hat auch seine neuesten Modelle unter einer Open-Source-Lizenz veröffentlicht. Die KI-Modellplattform Hugging Face hat aufbauend auf Deepseek-R1 bereits das Projekt Open R1 ins Leben gerufen. Das strebt an, die gesamte Entwicklungspipeline auf Basis der von Deepseek veröffentlichten Bestandteile nachzubauen. Davon dürften am Ende Forschung und Unternehmen gleichermaßen profitieren.

Deepseek liefert technische beeindruckende KI-Modelle – zensierte als chinesisches Unternehmen auf der eigenen Plattform aber auch manche Fragen. (Screenshot: deepseek.com / t3n)
Zensur bei Deepseek: China hält die Zügel
Während die zugrundeliegenden Modelle frei verfügbar sind, sollten Nutzer:innen nicht vergessen, dass Deepseek ein chinesisches Unternehmen ist – und dementsprechend den Zensurvorgaben von Peking folgen muss.
Wer beispielsweise über die Deepseek-Website oder -App nach dem Tiananmen-Massaker fragt, bekommt keine Antwort darauf. Stattdessen erklärt der Chatbot, dass sich Deepseek als „verantwortungsbewusstes Unternehmen“ den chinesischen Gesetzen und „der sozialen Moral Chinas“ verpflichtet sei.