Deepseek V3: Das mächtigste Open-Source-KI-Modell kommt aus China

Das chinesische KI-Unternehmen Deepseek hat sein neuestes Modell namens Deepseek V3 veröffentlicht, das offen zugänglich ist und für Anwendungen aller Art genutzt und angepasst werden kann. Wie Techcrunch berichtet, übertrifft es laut internen Benchmark-Tests sowohl offene als auch geschlossene KI-Modelle wie Metas Llama 3.1 oder OpenAIs GPT-4o in zahlreichen Kategorien.
Besonders stark zeigt sich Deepseek V3 bei Programmieraufgaben: Auf der Plattform Codeforces, die Wettbewerbe für Programmierer:innen veranstaltet, schnitt es besser ab als seine Konkurrenzmodelle. Und auch im Benchmark-Test Aider Polyglot setzte sich das neue Deepseek V3 an die Spitze. Ziel dieser Benchmark ist es unter anderem, zu messen, ob ein Modell neuen Code schreiben kann, der sich erfolgreich in bestehenden Code integrieren lässt.
Open-Source-KI auf neuem Niveau
Nach Angaben des Unternehmens wurde Deepseek V3 mit einem beeindruckenden Datensatz von 14,8 Billionen Token trainiert. Zum Vergleich: Eine Million Token entsprechen etwa 750.000 Wörtern. Mit 671 Milliarden Parametern oder 685 Milliarden auf der KI-Dev-Plattform Hugging Face ist es deutlich größer als Metas Llama 3.1 mit nur 405 Milliarden Parametern. Die Anzahl der Parameter eines Modells korreliert oft mit dessen Leistungsfähigkeit, erfordert aber auch entsprechend starke Hardware.
Ohne Optimierung benötigt Deepseek V3 eine Reihe hochmoderner GPUs, um mit akzeptabler Geschwindigkeit zu arbeiten. Beeindruckend ist jedoch die Effizienz der Entwicklung: Trotz US-Handelsbeschränkungen hat das chinesische KI-Unternehmen das Modell innerhalb von zwei Monaten auf Nvidia H800-GPUs trainiert – und dafür nur 5,5 Millionen US-Dollar ausgegeben. Schätzungen zufolge hat OpenAI ein Vielfaches davon in das Training von GPT-4 investiert.
Deepseek ist in der KI-Szene nicht unbekannt: Mit dem zuvor veröffentlichten Modell Deepseek-R1 trat das Unternehmen in Konkurrenz zum o1-Reasoning-Modell von OpenAI. Hinter der Organisation steht High-Flyer Capital Management, ein Hedgefonds, der auf KI-basierte Handelsstrategien setzt und riesige Rechenzentren mit Tausenden von Nvidia-GPUs betreibt.
Deepseek unterliegt den chinesischen Regulierungsbehörden
Trotz seiner technischen Errungenschaften hat Deepseek V3 eine klare Schwäche – und die ist politischer Natur. Denn chinesische KI-Modelle müssen den „Grundwerten des Sozialismus“ entsprechen, wie es die chinesische Internetaufsichtsbehörde vorschreibt. Viele chinesische KI-Systeme weigern sich deshalb, auf sensible Fragen zu reagieren, die den Unmut der Regulierungsbehörden erregen könnten.
Aus diesem Grund bleibt auch Deepseek V3 stumm, wenn es beispielsweise auf das Massaker auf dem Tian’anmen-Platz in Peking angesprochen wird. Anstatt darauf hinzuweisen, dass hier die Proteste der chinesischen Demokratiebewegung blutig niedergeschlagen wurden, sagt der Bot lediglich, dass er darauf ausgelegt sei, nützliche und harmlose Antworten zu geben.