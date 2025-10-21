Anzeige
82 Prozent weniger GPUs nötig: Wie Alibaba teure KI-Chips einspart

Alibaba hat anscheinend ein System kreiert, das die GPU-Nutzung im KI-Bereich radikal verringert. Ob es sich dabei auch um eine Art „DeepSeek-Moment“ handelt, ist allerdings noch offen.

Von Christian Bernhard
2 Min.
82 Prozent weniger GPUs nötig: Wie Alibaba teure KI-Chips einspart

Alibaba will die GPU-Nutzung im KI-Bereich deutlich verringern. (Foto: Ascannio/Shutterstock)

Alibaba scheint ein neues System entwickelt zu haben, das die Anzahl der für die Bedienung großer Sprachmodelle benötigten Nvidia-GPUs um 82 Prozent reduziert. Das Ergebnis, das auf dem ACM Symposium on Operating Systems (SOSP) 2025 in Seoul vorgestellt wurde, deutet darauf hin, dass Cloud-Anbieter möglicherweise deutlich mehr aus vorhandenem Chip herausholen können.

Besonders interessant ist das für eingeschränkte Märkte wie China, wo das Angebot an Nvidia-Chips weiterhin begrenzt ist.

Statt 1.192 GPUs nur noch 213

Das neue System wurde laut der Webseite Tomshardware einem mehrmonatigen Betatest unterzogen. Da es einem H20-Chip von Nvidia ermöglicht, mehrere verschiedene Modelle gleichzeitig zu bedienen, steigt der sogenannte „Goodput“ – ein Maß für die effektive Leistung – im Vergleich zu älteren serverlosen Systemen um das Neunfache an.

Im Test-Zeitraum sank die Anzahl der GPUs, die zur Unterstützung von Dutzenden verschiedener LLMs mit bis zu 72 Milliarden Parametern benötigt wurden, von 1.192 auf nur 213.

Tests wurden wohl mit Nvidias H20-Chips durchgeführt

Während die Studie, an der auch Forscher:innen der Peking-Universität beteiligt waren, nicht detailliert aufschlüsselt, welche Modelle am meisten zu den Einsparungen beigetragen haben, heißt es in einem Bericht der South China Morning Post, dass die Tests mit Nvidias H20-Chips durchgeführt wurden. Das erscheint schlüssig, da das einer der wenigen Chips ist, der chinesischen Käufer:innen trotz der aktuellen US-Exportkontrollen noch legal zur Verfügung steht.

Empfohlene redaktionelle Inhalte

Hinweis zum Datenschutz

Laut Alibaba sind die Einsparungen auf zwei Haupttechniken zurückzuführen: die Kombination mehrerer Modelle pro GPU und die Verwendung eines Autoscalings auf Token-Ebene zur dynamischen Zuweisung von Rechenleistung bei der Ausgabe, anstatt Ressourcen auf Anfrageebene zu reservieren.

Halten andere Hyperscaler ähnliche Ergebnisse noch zurück?

Laut The Register ist diese Studie allerdings „nicht zwingend“ als Durchbruch zu werten, da Hyperscaler – sprich große Anbieter von Cloud-Computing-Diensten, die riesige, skalierbare Rechenzentren betreiben und damit Kund:innen mit enormen Mengen an Rechenleistung, Speicherplatz und anderen Cloud-Services versorgen – darauf achten, nicht die gesamte Technologie ihrer Plattformen preiszugeben. Es sei durchaus möglich, dass andere Hyperscaler dieses Problem bereits angegangen sind – und vielleicht sogar besser abgeschnitten haben als Alibaba.

Das Fazit von The Register: Diese Studie „wird KI-Investoren nicht in Panik versetzen“, wie beim „DeepSeek-Moment“ im Januar 2025, als es so aussah, als hätten chinesische Technologieunternehmen Wege gefunden, die Anzahl der zum Trainieren von Modellen benötigten GPUs drastisch zu reduzieren.

