Anzeige
Anzeige
MIT Technology Review Analyse

Doch nicht so energiesparend? Warum die Angaben für Deepseek irreführend sind

Durch ein Tool zu Umweltkosten gibt es neue Zahlen zum KI-Modell von Deepseek. Der Knackpunkt des als energieeffizient angepriesenen LLMs scheint das Chain-of-thought-Vorgehen zu sein.

Von MIT Technology Review Online
6 Min.
Artikel merken
Anzeige
Anzeige
Deepseek kann mehr, als die US-Konkurrenz erwartet hätte. Nur wie?(Bild: Midjourney / t3n)

Mehr als eine Woche hält der Hype um das KI-Modell Deepseek aus China nun an und ein Narrativ trifft auf das nächste – mit unterschiedlichem Wahrheitsgehalt. So soll das Modell alles andere als datenschutzfreundlich sein, die ganze Branche, wie wir sie kennen umkrempeln sowie, und das ist besonders bedeutsam, dank mehr Effizienz nicht jene riesigen Energiemengen verschlingen, die ChatGPT und Co. benötigen.

Anzeige
Anzeige

Das Problem: Besonders der letzte Punkte ist ziemlich irreführend, wie neue Zahlen, die der US-Ausgabe von MIT Technology Review vorliegen, zeigen. Die Werte, die auf der Leistung eines der kleineren Deepseek-Modelle bei einer bestimmten Anzahl Prompts basieren, deuten darauf hin, dass es beim Generieren von Antworten sogar energieintensiver arbeiten könnte als das gleich große Modell von Meta. Das Problem scheint zu sein, dass hier ein effizientes Training auf ein energieverschwenderisches Beantworten von Anfragen trifft. Grund dafür scheint das Reasoning zu sein, jener virtuelle Denkprozess, der die neueren Modelle so gut machen soll. Entsprechend scheint es nicht so klug zu sein, wenn sich westliche Tech-Unternehmen nun von Deepseek inspirieren lassen.

Wie Deepseek R1 funktioniert

Der Lebenszyklus eines jeden KI-Modells besteht aus zwei Phasen: Training und Inferenz. Training ist der oft monatelange Prozess, in dem das Modell aus gigantischen Datenbeständen lernt. Danach ist das Modell bereit für die Inferenz, die jedes Mal stattfindet, wenn ein Nutzer es um etwas bittet. Beide Prozesse finden in der Regel in Rechenzentren statt, wo viel Energie für den Betrieb der notwendigen KI-Chips und die Kühlung der Server benötigt wird.

Anzeige
Anzeige

Beim Training seines R1-Modells hat das Deepseek-Team die so genannte „Mixture of Experts“ verbessert, bei der nur ein Teil der Milliarden von Parametern eines Modells – die „Drehknöpfe“, die das Modell zur Bildung besserer Antworten verwendet – zu einem bestimmten Zeitpunkt während des Trainings aktiviert wird. Vor allem aber haben sie das Verstärkungslernen verbessert, bei dem die Ergebnisse eines Modells bewertet und dann zur weiteren Verbesserung des Modells verwendet werden. Dies wird oft von menschlichen Klassifizierern durchgeführt, aber das Deepseek-Team hat es offenbar geschafft, dies zu automatisieren.

Wird das Training billiger?

Die Einführung neuer Möglichkeiten, das Training effizienter zu gestalten, könnte den Eindruck erwecken, dass KI-Unternehmen weniger Energie aufwenden müssen, um ihre KI-Modelle auf einen bestimmten Standard zu bringen. So funktioniert das aber nicht wirklich. „Da der Wert eines wirklich intelligenteren Systems so hoch ist“, schreibt Anthropic-Mitbegründer Dario Amodei in seinem Blog, würden die Unternehmen mehr, nicht weniger, für das Training von Modellen ausgeben. Wenn Unternehmen mehr für ihr Geld bekommen, lohnt es sich für sie, auch zu investieren und somit mehr Energie zu verbrauchen. „Der Gewinn an Kosteneffizienz wird letztendlich vollständig für die Ausbildung noch intelligenterer Modelle verwendet, begrenzt nur durch die finanziellen Ressourcen eines Unternehmens“, schreibt er. Dies ist ein Beispiel für das so genannte Jevons-Paradoxon.

Anzeige
Anzeige

Aber das gilt für das KI-Training schon so lange, wie das Rennen hin zur Allgemeinen Künstlichen Intelligenz (AGI) läuft. Interessanter wird es bei der Energie, die für die Inferenz in der praktischen Anwendung benötigt wird. Deepseek ist als Reasoning-Modell konzipiert, das heißt es soll in Bereichen wie Logik, Mustererkennung, Mathematik und bei anderen Aufgaben, mit denen typische generative KI-Modelle Schwierigkeiten haben, gute Leistungen erbringen. Reasoning-Modelle tun dies mit Hilfe der sogenannten „chain of thought“. Sie ermöglichen es dem KI-Modell, seine Aufgabe in Teile zu zerlegen und diese in einer logischen Reihenfolge abzuarbeiten, bevor es zu einer Ausgabe kommt.

Nutzer können dies bei Deepseek sehen. Ein Beispiel: Auf die Frage, ob es in Ordnung ist, zu lügen, um die Gefühle von jemandem zu schützen, geht das Modell zunächst auf den Utilitarismus ein und wägt den unmittelbaren Nutzen gegen den potenziellen zukünftigen Schaden ab. Dann zieht es die Kantsche Ethik in Betracht, die vorschlägt, dass man nach Maximen handeln sollte, die universelle Gesetze sein könnten. Deepseek berücksichtigt diese und andere Nuancen, bevor es seine Schlussfolgerung mitteilt. (Wen es interessiert: Das Modell kommt zu dem Schluss, dass Lügen „in Situationen, in denen Freundlichkeit und Schadensvermeidung im Vordergrund stehen, im Allgemeinen akzeptabel“ seien, jedoch nuanciert und keine universelle Lösung.)

Anzeige
Anzeige

Reasoning-Modelle mit „chain of thought“ schneiden bei bestimmten Benchmarks wie dem MMLU-Test, der Wissen und Problemlösungskompetenz in 57 Themenfächern prüft, tendenziell besser ab. Aber wie bei Deepseek deutlich wird, benötigen die Systeme auch deutlich mehr Energie, um zu ihren Antworten zu kommen. Mittlerweile können wir sagen, wie viel das ungefähr ist.

Erster Energie-Test an Deepseek

Scott Chamberlin arbeitete jahrelang bei Microsoft und später bei Intel an der Entwicklung von Tools, mit denen sich die Umweltkosten bestimmter digitaler Aktivitäten ermitteln lassen. Chamberlin hat erste Tests durchgeführt, um festzustellen, wie viel Energie ein Grafikprozessor verbraucht, während Deepseek zu seiner Antwort kommt. Sein Experiment ist unter Vorbehalt zu genießen: Er testete nur eine mittelgroße Version von Deepseeks R1 und verwendete nur eine kleine Anzahl von Prompts beim Test. Es ist auch schwierig, Vergleiche mit anderen Reasoning-Modellen anzustellen.

Deepseek ist „wirklich das erste Reasoning-Modell, das so populär ist und zu dem wir Zugang haben“, sagt er. Das o1-Modell von OpenAI ist sein nächster Konkurrent, aber das Unternehmen stellt es nicht für solche Tests zur Verfügung. Stattdessen hat Chamberlin Deepseek gegen ein Modell von Meta mit der gleichen Anzahl von Parametern getestet: 70 Milliarden. Auf die Frage, ob es in Ordnung ist, zu lügen, antwortete das Deepseek-Modell mit 1.000 Wörtern und benötigte dafür 17.800 Joule – etwa so viel, wie für das Streamen eines 10-minütigen Youtube-Videos benötigt wird. Das war etwa 41 Prozent mehr Energie als das Meta-Modell für die Beantwortung der Frage benötigte. Bei einem Test mit 40 Prompts zeigte Deepseek eine ähnliche Energieeffizienz wie das Meta-Modell, aber Deepseek neigte dazu, viel längere Antworten zu generieren und verbrauchte daher 87 Prozent mehr Energie.

Anzeige
Anzeige

Energieverbrauch: Deepseek 17.800 Joule, Meta Llama 3.1 verbrauchte 512 Joule

Wie verhält sich dies im Vergleich zu Modellen, die eine herkömmliche generative KI-Ausgabe im Gegensatz zum „chain of thought“-Ansatz verwenden? Tests eines Teams der Universität Michigan im Oktober ergaben, dass die 70-Milliarden-Parameter-Version von Metas Llama 3.1 im Durchschnitt nur 512 Joule pro Antwort verbraucht. Weder Deepseek noch Meta haben auf Bitten um eine Stellungnahme zu diesen Zahlen reagiert.

Es gibt dabei viele Unwägbarkeiten. Es handelt sich um unterschiedliche Modelle für unterschiedliche Zwecke, und eine wissenschaftlich fundierte Studie darüber, wie viel Energie Deepseek im Vergleich zu seinen Konkurrenten verbraucht, wurde noch nicht durchgeführt. Allein aufgrund der Architektur der Modelle ist jedoch klar, dass Reasoning-Modelle viel mehr Energie verbrauchen, während sie zu fundierteren Antworten gelangen. Sasha Luccioni, KI-Forscher und Leiter des Bereichs Klima bei der KI-Plattform Hugging Face, befürchtet, dass die Begeisterung für Deepseek dazu führen könnte, dass dieser Ansatz bald überall eingesetzt wird – auch dort, wo er nicht benötigt wird.

„Wenn wir anfangen, dieses Paradigma auf breiter Front zu übernehmen, würde der Energieverbrauch für Inferenzen in die Höhe schießen“, sagt sie. Das heißt: Wenn fast alle Modelle, die künftig veröffentlicht werden, rechenintensiver sind und „chain of thought“ nutzen, dann werden alle Effizienzgewinne zunichte gemacht.

Anzeige
Anzeige

Wandel zur generativen KI erforderte mehr Energie

KI war schon einmal an dieser Stelle. Vor der Einführung von ChatGPT im Jahr 2022 war KI eigentlich gleichbedeutend damit, Informationen in viel Text zu finden oder Bilder zu kategorisieren. Im Jahr 2022 verlagerte sich der Schwerpunkt jedoch von der extraktiven KI zur generativen KI, die darauf basiert, immer bessere Vorhersagen zu treffen. Das erfordert mehr Energie.

„Das ist der erste Paradigmenwechsel“, sagt Luccioni. Laut ihrer Forschung hat dieser Wandel dazu geführt, dass für ähnliche Aufgaben um ein Vielfaches mehr Energie verbraucht wird. Wenn die Begeisterung für Deepseek anhält, könnten Unternehmen unter Druck geraten, ihre Modelle im Stil der Chain-of-Thought-Methode in alles einzubauen, so wie die generative KI in alles von der Google-Suche bis hin zu Messaging-Apps integriert wurde.

Trend zu Chain-of-Thought-Modellen

Dieser Trend zu Chain-of-Thought-Modellen scheint sich zu verstetigen: OpenAI kündigte am 31. Januar an, dass es den Zugang zu seinem eigenen Reasoning-Modell o3 erweitern werde. Wir werden jedoch erst mehr über die Energiekosten erfahren, wenn Deepseek und ähnliche Modelle besser untersucht wurden.

Anzeige
Anzeige

„Es wird davon abhängen, ob sich der Kompromiss für das betreffende Unternehmen wirtschaftlich lohnt oder nicht“, sagt Nathan Benaich, Gründer und General Partner bei Air Street Capital. “Die Energiekosten müssten astronomisch hoch sein, damit sie eine bedeutende Rolle bei der Entscheidungsfindung spielen.“

Dieser Artikel stammt von James O’Donnell. Er ist Reporter bei der US-amerikanischen MIT Technology Review. Sein Themengebiet ist KI, Robotik und autonomes Fahren.
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare (1)

Community-Richtlinien

Martin Anderle

Also ich hab DeepSeek R1 (Distill /32B) da es Open Source(!) ist und kein Zugriff aufs Internet hat (Thema Datenschutz?) auf einem Mac Book Pro M2 Max laufen. Da gibt es keine Probleme ich kann das mit einem Click ejecten wenn es nicht benötigt wird so dass der Arbeitsspeicher freigeben wird. Die Antworten sind in bestimmten Bereichen gleichwertig mit dem O1. Der Vorteil ist das diese Daten gerade nicht zum Training von Open AI benutzt wird und ich auch die KI mit für uns sensiblen Daten füttern kann, welche dann logischerweise auch DSGVO konform sind.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige