Doch nicht so energiesparend? Warum die Angaben für Deepseek irreführend sind

Mehr als eine Woche hält der Hype um das KI-Modell Deepseek aus China nun an und ein Narrativ trifft auf das nächste – mit unterschiedlichem Wahrheitsgehalt. So soll das Modell alles andere als datenschutzfreundlich sein, die ganze Branche, wie wir sie kennen umkrempeln sowie, und das ist besonders bedeutsam, dank mehr Effizienz nicht jene riesigen Energiemengen verschlingen, die ChatGPT und Co. benötigen.
Das Problem: Besonders der letzte Punkte ist ziemlich irreführend, wie neue Zahlen, die der US-Ausgabe von MIT Technology Review vorliegen, zeigen. Die Werte, die auf der Leistung eines der kleineren Deepseek-Modelle bei einer bestimmten Anzahl Prompts basieren, deuten darauf hin, dass es beim Generieren von Antworten sogar energieintensiver arbeiten könnte als das gleich große Modell von Meta. Das Problem scheint zu sein, dass hier ein effizientes Training auf ein energieverschwenderisches Beantworten von Anfragen trifft. Grund dafür scheint das Reasoning zu sein, jener virtuelle Denkprozess, der die neueren Modelle so gut machen soll. Entsprechend scheint es nicht so klug zu sein, wenn sich westliche Tech-Unternehmen nun von Deepseek inspirieren lassen.
Wie Deepseek R1 funktioniert
Der Lebenszyklus eines jeden KI-Modells besteht aus zwei Phasen: Training und Inferenz. Training ist der oft monatelange Prozess, in dem das Modell aus gigantischen Datenbeständen lernt. Danach ist das Modell bereit für die Inferenz, die jedes Mal stattfindet, wenn ein Nutzer es um etwas bittet. Beide Prozesse finden in der Regel in Rechenzentren statt, wo viel Energie für den Betrieb der notwendigen KI-Chips und die Kühlung der Server benötigt wird.
Beim Training seines R1-Modells hat das Deepseek-Team die so genannte „Mixture of Experts“ verbessert, bei der nur ein Teil der Milliarden von Parametern eines Modells – die „Drehknöpfe“, die das Modell zur Bildung besserer Antworten verwendet – zu einem bestimmten Zeitpunkt während des Trainings aktiviert wird. Vor allem aber haben sie das Verstärkungslernen verbessert, bei dem die Ergebnisse eines Modells bewertet und dann zur weiteren Verbesserung des Modells verwendet werden. Dies wird oft von menschlichen Klassifizierern durchgeführt, aber das Deepseek-Team hat es offenbar geschafft, dies zu automatisieren.
Wird das Training billiger?
Die Einführung neuer Möglichkeiten, das Training effizienter zu gestalten, könnte den Eindruck erwecken, dass KI-Unternehmen weniger Energie aufwenden müssen, um ihre KI-Modelle auf einen bestimmten Standard zu bringen. So funktioniert das aber nicht wirklich. „Da der Wert eines wirklich intelligenteren Systems so hoch ist“, schreibt Anthropic-Mitbegründer Dario Amodei in seinem Blog, würden die Unternehmen mehr, nicht weniger, für das Training von Modellen ausgeben. Wenn Unternehmen mehr für ihr Geld bekommen, lohnt es sich für sie, auch zu investieren und somit mehr Energie zu verbrauchen. „Der Gewinn an Kosteneffizienz wird letztendlich vollständig für die Ausbildung noch intelligenterer Modelle verwendet, begrenzt nur durch die finanziellen Ressourcen eines Unternehmens“, schreibt er. Dies ist ein Beispiel für das so genannte Jevons-Paradoxon.
Aber das gilt für das KI-Training schon so lange, wie das Rennen hin zur Allgemeinen Künstlichen Intelligenz (AGI) läuft. Interessanter wird es bei der Energie, die für die Inferenz in der praktischen Anwendung benötigt wird. Deepseek ist als Reasoning-Modell konzipiert, das heißt es soll in Bereichen wie Logik, Mustererkennung, Mathematik und bei anderen Aufgaben, mit denen typische generative KI-Modelle Schwierigkeiten haben, gute Leistungen erbringen. Reasoning-Modelle tun dies mit Hilfe der sogenannten „chain of thought“. Sie ermöglichen es dem KI-Modell, seine Aufgabe in Teile zu zerlegen und diese in einer logischen Reihenfolge abzuarbeiten, bevor es zu einer Ausgabe kommt.
Nutzer können dies bei Deepseek sehen. Ein Beispiel: Auf die Frage, ob es in Ordnung ist, zu lügen, um die Gefühle von jemandem zu schützen, geht das Modell zunächst auf den Utilitarismus ein und wägt den unmittelbaren Nutzen gegen den potenziellen zukünftigen Schaden ab. Dann zieht es die Kantsche Ethik in Betracht, die vorschlägt, dass man nach Maximen handeln sollte, die universelle Gesetze sein könnten. Deepseek berücksichtigt diese und andere Nuancen, bevor es seine Schlussfolgerung mitteilt. (Wen es interessiert: Das Modell kommt zu dem Schluss, dass Lügen „in Situationen, in denen Freundlichkeit und Schadensvermeidung im Vordergrund stehen, im Allgemeinen akzeptabel“ seien, jedoch nuanciert und keine universelle Lösung.)
Reasoning-Modelle mit „chain of thought“ schneiden bei bestimmten Benchmarks wie dem MMLU-Test, der Wissen und Problemlösungskompetenz in 57 Themenfächern prüft, tendenziell besser ab. Aber wie bei Deepseek deutlich wird, benötigen die Systeme auch deutlich mehr Energie, um zu ihren Antworten zu kommen. Mittlerweile können wir sagen, wie viel das ungefähr ist.
Erster Energie-Test an Deepseek
Scott Chamberlin arbeitete jahrelang bei Microsoft und später bei Intel an der Entwicklung von Tools, mit denen sich die Umweltkosten bestimmter digitaler Aktivitäten ermitteln lassen. Chamberlin hat erste Tests durchgeführt, um festzustellen, wie viel Energie ein Grafikprozessor verbraucht, während Deepseek zu seiner Antwort kommt. Sein Experiment ist unter Vorbehalt zu genießen: Er testete nur eine mittelgroße Version von Deepseeks R1 und verwendete nur eine kleine Anzahl von Prompts beim Test. Es ist auch schwierig, Vergleiche mit anderen Reasoning-Modellen anzustellen.
Deepseek ist „wirklich das erste Reasoning-Modell, das so populär ist und zu dem wir Zugang haben“, sagt er. Das o1-Modell von OpenAI ist sein nächster Konkurrent, aber das Unternehmen stellt es nicht für solche Tests zur Verfügung. Stattdessen hat Chamberlin Deepseek gegen ein Modell von Meta mit der gleichen Anzahl von Parametern getestet: 70 Milliarden. Auf die Frage, ob es in Ordnung ist, zu lügen, antwortete das Deepseek-Modell mit 1.000 Wörtern und benötigte dafür 17.800 Joule – etwa so viel, wie für das Streamen eines 10-minütigen Youtube-Videos benötigt wird. Das war etwa 41 Prozent mehr Energie als das Meta-Modell für die Beantwortung der Frage benötigte. Bei einem Test mit 40 Prompts zeigte Deepseek eine ähnliche Energieeffizienz wie das Meta-Modell, aber Deepseek neigte dazu, viel längere Antworten zu generieren und verbrauchte daher 87 Prozent mehr Energie.
Energieverbrauch: Deepseek 17.800 Joule, Meta Llama 3.1 verbrauchte 512 Joule
Wie verhält sich dies im Vergleich zu Modellen, die eine herkömmliche generative KI-Ausgabe im Gegensatz zum „chain of thought“-Ansatz verwenden? Tests eines Teams der Universität Michigan im Oktober ergaben, dass die 70-Milliarden-Parameter-Version von Metas Llama 3.1 im Durchschnitt nur 512 Joule pro Antwort verbraucht. Weder Deepseek noch Meta haben auf Bitten um eine Stellungnahme zu diesen Zahlen reagiert.
Es gibt dabei viele Unwägbarkeiten. Es handelt sich um unterschiedliche Modelle für unterschiedliche Zwecke, und eine wissenschaftlich fundierte Studie darüber, wie viel Energie Deepseek im Vergleich zu seinen Konkurrenten verbraucht, wurde noch nicht durchgeführt. Allein aufgrund der Architektur der Modelle ist jedoch klar, dass Reasoning-Modelle viel mehr Energie verbrauchen, während sie zu fundierteren Antworten gelangen. Sasha Luccioni, KI-Forscher und Leiter des Bereichs Klima bei der KI-Plattform Hugging Face, befürchtet, dass die Begeisterung für Deepseek dazu führen könnte, dass dieser Ansatz bald überall eingesetzt wird – auch dort, wo er nicht benötigt wird.
„Wenn wir anfangen, dieses Paradigma auf breiter Front zu übernehmen, würde der Energieverbrauch für Inferenzen in die Höhe schießen“, sagt sie. Das heißt: Wenn fast alle Modelle, die künftig veröffentlicht werden, rechenintensiver sind und „chain of thought“ nutzen, dann werden alle Effizienzgewinne zunichte gemacht.
Wandel zur generativen KI erforderte mehr Energie
KI war schon einmal an dieser Stelle. Vor der Einführung von ChatGPT im Jahr 2022 war KI eigentlich gleichbedeutend damit, Informationen in viel Text zu finden oder Bilder zu kategorisieren. Im Jahr 2022 verlagerte sich der Schwerpunkt jedoch von der extraktiven KI zur generativen KI, die darauf basiert, immer bessere Vorhersagen zu treffen. Das erfordert mehr Energie.
„Das ist der erste Paradigmenwechsel“, sagt Luccioni. Laut ihrer Forschung hat dieser Wandel dazu geführt, dass für ähnliche Aufgaben um ein Vielfaches mehr Energie verbraucht wird. Wenn die Begeisterung für Deepseek anhält, könnten Unternehmen unter Druck geraten, ihre Modelle im Stil der Chain-of-Thought-Methode in alles einzubauen, so wie die generative KI in alles von der Google-Suche bis hin zu Messaging-Apps integriert wurde.
Trend zu Chain-of-Thought-Modellen
Dieser Trend zu Chain-of-Thought-Modellen scheint sich zu verstetigen: OpenAI kündigte am 31. Januar an, dass es den Zugang zu seinem eigenen Reasoning-Modell o3 erweitern werde. Wir werden jedoch erst mehr über die Energiekosten erfahren, wenn Deepseek und ähnliche Modelle besser untersucht wurden.
„Es wird davon abhängen, ob sich der Kompromiss für das betreffende Unternehmen wirtschaftlich lohnt oder nicht“, sagt Nathan Benaich, Gründer und General Partner bei Air Street Capital. “Die Energiekosten müssten astronomisch hoch sein, damit sie eine bedeutende Rolle bei der Entscheidungsfindung spielen.“
Also ich hab DeepSeek R1 (Distill /32B) da es Open Source(!) ist und kein Zugriff aufs Internet hat (Thema Datenschutz?) auf einem Mac Book Pro M2 Max laufen. Da gibt es keine Probleme ich kann das mit einem Click ejecten wenn es nicht benötigt wird so dass der Arbeitsspeicher freigeben wird. Die Antworten sind in bestimmten Bereichen gleichwertig mit dem O1. Der Vorteil ist das diese Daten gerade nicht zum Training von Open AI benutzt wird und ich auch die KI mit für uns sensiblen Daten füttern kann, welche dann logischerweise auch DSGVO konform sind.