Blackwell Ultra und Rubin: Rennen Nvidias KI-Chips dem Markt davon?

Nvidia bringt jedes Jahr einen neuen KI-Chip auf den Markt. Ist die Industrie bereit dafür? (Bild: Shutterstock / Overearth)
Die brandneuen Blackwell-Beschleuniger sind noch nicht mal verbaut, da kündigt Nvidia-Geschäftsführer Jensen Huang schon den nächsten Evolutionssprung an. Der neue Grafikbeschleuniger Blackwell Ultra soll im zweiten Halbjahr 2025 erscheinen und auf den ersten Blick nur mehr Speicher als die Ur-Blackwells bieten. Sein Nachfolger Rubin kommt laut Nvidia-Plänen zusammen mit dem neuen Prozessor Vera 2026 auf den Markt.
Der Erfolg scheint dem hohen Veröffentlichungstempo recht zu geben. Auf der diesjährigen GTC sprach Huang in seiner Keynote davon, im Fiskaljahr 2025 1,8 Millionen Blackwell-Beschleuniger, die anders als der Vorgänger aus zwei statt einem Chip bestehen, verkauft zu haben. Im vorigen Fiskaljahr lag der Absatz von Hopper-Produkten bei 1,3 Millionen. Bei einem grob geschätzten Verkaufspreis von rund 30.000 US-Dollar für eine Steckkarte mit H100-Chip käme Nvidia alleine mit der Hopper-Architektur auf einen Umsatz von 40 Milliarden US-Dollar.
Da ist es wenig verwunderlich, dass Huangs Firma möglichst schnell neue Produkte auf den Markt bringen möchte, um das Momentum beizubehalten und Anleger:innen zufriedenzustellen. Aber ist eine neue Chip-Generation mit derartiger Leistung Stand jetzt überhaupt notwendig?
Startschuss mit Verzögerung
Ein erster Aspekt, der dagegenspricht, ist der Bestand an Hopper-Beschleunigern bei den größten Kunden von Nvidia und deren Nutzung. In der Financial Times zitierte Schätzungen der Tech-Marktanalyst:innen von Omdia gehen davon aus, dass Microsoft, Meta, Amazon und Google zusammen alleine im Jahr 2024 rund eine Million Beschleuniger mit der Hopper-Architektur gekauft haben. Hyperscaler wie Amazons AWS und Microsofts Azure nutzen diese gewaltigen Mengen, um ihre Rechenzentren für die Inferenz, also die Ausführung von Sprachmodellen fit zu machen. Meta gab an, bis Ende 2024 rund 350.000 H100-Beschleuniger in sein KI-Arsenal aufnehmen zu wollen. Bei xAI, der Firma hinter Grok, laufen laut Firmenangaben im Rechenzentrum Colossus etwa 200.000 H100-Beschleuniger.
Weil die Wartezeiten für die Hopper-Serverlösungen schon 2023 bei rund einem Jahr lagen, sind die entsprechenden Kapazitäten zum Teil erst 2024 ans Netz gegangen. Obwohl die erste Blackwell-Generation also schon im Frühjahr 2024 angekündigt wurde, hatten viele Kunden Nvidias da noch nicht die Gelegenheit gehabt, ihre H100-Bestellungen in Betrieb zu nehmen. Laut des State of AI Report Compute Index gab es Stand November 2024 nur eine Handvoll Firmen, die eine fünfstellige Anzahl an H100-Beschleunigern im Portfolio hatten.
AMD auf Aufholjagd
Dass Nvidia den Markt dominiert, heißt zeitgleich nicht, dass seine Kunden sich für immer auf die leistungsfähigen, aber teuren Chips verlassen wollen. Die direkte Konkurrenz AMD bietet beispielsweise schon seit einiger Zeit alternative KI-Beschleuniger an. Über die berichtet abseits der Fachpresse kaum jemand. Auf dem Papier soll die Rechenleistung des derzeitigen Flaggschiffs MI300X sogar besser sein als die des H100.
Für das Trainieren von Sprachmodellen bescheinigen die Experten von Semianalysis dem AMD-Produkt allerdings deutliche Schwächen, was vor allem auf die Software zurückzuführen ist. Die ist auch einer der größten Vorteile für Nvidia. Denn CUDA, mit dem sich erstmals ressourcenintensive Berechnungen parallel und nicht nur nacheinander durchführen ließen, gilt in der IT-Branche als Goldstandard. Im Hinblick auf Inferenz gehen die Meinungen auseinander. Verschiedene Quellen sprechen von einem messbaren Vorsprung von AMDs MI300X. Nvidia selbst behauptet, mit CUDA-Optimierung sei der H100-Chip weiterhin unschlagbar.
Von Nvidia-Kunden zu Konkurrent:innen
Nicht nur Chip-Hersteller, sondern auch deren Nutzer:innen ziehen langsam, aber sicher nach. Amazon arbeitet beispielsweise schon an der dritten Generation seiner KI-Trainings-Chips Trainium. 400.000 Stück der zweiten Generation will der Konzern im Rahmen seines „Project Rainier“ exklusiv dem KI-Startup Anthropic zur Verfügung stellen. Mit Inferentia hat die Firma auch Inferenz-Chips im Angebot. Für diese lässt sich zusätzlich zu den von Nvidia-Beschleunigern angetriebenen Serverinstanzen Nutzungszeit bei AWS einkaufen.
Google verlässt sich ohnehin auf seine eigenen Tensor Processing Units für das Training und die Weiterentwicklung seines KI-Tools Gemini. Auch Apple bedient sich für Apple Intelligence an Googles TPUs. Dazu arbeitet die Firma an der Weiterentwicklung seiner M-Serie für die lokale Ausführung von KI-Tools auch an einem eigenen Server-Chip. Dieser soll laut The Information zusammen mit Broadcom entwickelt und von TSMC gebaut werden. Und Meta hat erst Anfang März mit der Testphase für seinen ersten eigenen Chip für KI-Training begonnen, wie Reuters berichtet. Die vorherigen MTIA-Chips waren eher auf die Ausführung von KI-Modellen wie dem hauseigenen Meta AI ausgerichtet.
Inferenz wird wichtiger als Training
In Bezug auf das Training von Sprachmodellen stehen Nvidia-Chips momentan noch an der Spitze. Allerdings dürfte in Zukunft die Ausführung von Sprachmodellen immer wichtiger werden. Große Modelle mit hunderten Milliarden Parametern brauchen auch in der Ausführung entsprechende Leistung. Aber die vergangenen Monate haben gezeigt, dass mehr nicht immer besser oder effizienter heißen muss.
Dafür spricht etwa der Erfolg von Deepseek R1. Das chinesische Modell wurde zwar in seiner Grundfassung angeblich auch mit zehntausenden H100-Beschleunigern trainiert. Für den Hausgebrauch gibt es das Modell aber in destillierten Versionen. Dabei trainieren kleinere Modelle an den Outputs von größeren Modellen. Dadurch schrumpfen Größe, Ressourcenbedarf und Kosten. Das hat zum Beispiel bei Tencent dazu geführt, dass der Konzern laut Aussagen im Earnings Call zum vergangenen Quartal nicht mehr die Notwendigkeit sieht, in Grafik-Chips für Modelltraining zu investieren. 2024 war die chinesische Firma mit rund 200.000 Hopper-Chips einer der Hauptabnehmer von Nvidia-Produkten.
Dass für Inferenz auch ältere Chips taugen, zeigt sich schon am Beispiel von OpenAI. Laut Berichterstattung von The Information, zitiert von Data Centre Dynamics, lief die Ausführung von ChatGPT bei Microsoft Azure noch im Juli 2024 über einen Cluster von rund 300.000 A100-Beschleunigern. Die landeten vor vier Jahren das erste Mal auf dem Markt. Im KI-Segment ist das eine halbe Ewigkeit.
Blackwell auf der Warteliste
Für die reine Inferenz von Sprachmodellen dürften Chips wie Blackwell Ultra oder Rubin also gnadenlos überdimensioniert sein. Denn diese bringen auch deutlich mehr Kosten als eine Flotte A100 oder H100 mit sich. Selbst beim Training scheint das Potenzial der Hopper-Architektur noch nicht ausgeschöpft zu sein. Der Branchenexperte Alan Thompson führt unter Lifearchitect.ai über zahlreiche Statistiken rund um Sprachmodelle Buch. Eine Übersicht über die für verschiedene Modelle verwendeten Beschleuniger zeigt, dass der Umstieg auf H100 erst im vergangenen Jahr großflächig stattgefunden hat.
Llama 3, das derzeit aktuelle Open-Source-Modell von Meta, soll auf rund 25.000 H100-Chips trainiert worden sein. Bei Grok 2 waren es noch 20.000 H100-Beschleuniger, für das noch aktuelle GPT-4 waren 25.000 A100-Beschleuniger nötig. Selbst GPT-5, von Beobachter:innen als potenzieller Paradigmenwechsel gehypt, soll laut groben Schätzungen nur 50.000 H100-Chips benötigt haben.
Nvidia baut den Burggraben aus
Auf dem Papier scheint es so, als würden Nvidias Hopper-Beschleuniger auch für die kommende Generation an Sprachmodellen ausreichen. Für die Ausführung genügen den großen Cloud-Anbietern ältere Chips, für das Training von angeblich bahnbrechenden Modellen wie GPT-5 sind die H100-Beschleuniger gut genug. Wenn es um spezialisierte Anwendungen geht, gibt es immer noch die TPUs von Google oder die Eigengewächse von Amazon oder Meta. Und selbst OpenAI baut einen eigenen KI-Chip für Training und Inferenz, der laut Reuters 2026 in Massenproduktion gehen soll.
Nvidias Blackwell-Refresh und die neue Chip-Architektur Rubin zielen also voraussichtlich hauptsächlich auf eines ab: die Verfestigung der Marktdominanz in einem Feld, das in Zukunft deutlich stärker umkämpft sein wird als noch vor zwei oder drei Jahren. Denn sonst wird aus dem Vorreiter schnell der Mitläufer, allem Vorsprung zum Trotz.