KI-Training benötigt extrem viel Strom: Wie ein Software-Tool den Verbrauch um 30 Prozent senken soll
Der Energiehunger von KI-Modellen nimmt immer weiter zu. Die Investmentbank Morgan Stanley rechnet etwa mit einer Verfünffachung des Energiebedarfs im KI-Sektor über die nächsten drei Jahre. Analysten von Wells Fargo wiederum rechnen alleine bis 2026 mit einem Anstieg um 550 Prozent. Die großen Tech-Konzerne reagieren darauf vor allem durch die Erschließung neuer Energiequellen – und setzen dabei auch auf Atomkraft.
Aber ließen sich nicht das Training und die Ausführung der KI selbst energieeffizienter gestalten? Genau dafür haben Forscher:innen dreier US-amerikanischer Universitäten jetzt eine neue Methode entwickelt. Die soll den Stromverbrauch um bis zu 30 Prozent reduzieren können – ohne Veränderungen an der Hardware.
Wie die effizientere Nutzung von GPUs den Energiehunger von KI mindern soll
Nach Ansicht der Wissenschaftler:innen führt es zu einem vermeidbaren Stromverbrauch, wenn Teile einer Berechnung unnötig schnell von der Hardware durchgeführt werden. Im Rahmen ihrer Arbeit haben zwei Fälle identifiziert, bei denen genau das beim KI-Training auftritt.
Der erste Fall entsteht dadurch, dass die Rechenarbeit beim Training großer KI-Modelle auf mehrere GPUs verteilt werden. Dabei wird die Arbeit aber nicht perfekt gleichmäßig auf alle GPUs verteilt. Das bedeutet, dass GPUs mit weniger Aufgaben früher fertig sind, dann aber auf die stärker ausgelasteten GPUs warten müssen.
Die weniger stark beanspruchten GPUs laufen in dem Fall also unnötig schnell, weil sie ohnehin auf die stärker ausgelasteten GPUs warten müssen. Daraus ergibt sich ein unnötig hoher Stromverbrauch.
Ein weiteres Problem: Wenn KI-Unternehmen wie OpenAI ein KI-Modell mithilfe von zehntausenden GPUs trainieren, dann kann es immer wieder passieren, dass einzelne Hardware-Defekte auftreten oder auch einfache einzelne GPUs zum Schutz vor Überhitzung gedrosselt werden müssen.
Tritt dieser Fall auf, müssen alle anderen Berechnungen warten, bis der Nachzügler fertig ist. Sobald also ein solcher Fehler irgendwo in der Trainingspipeline auftaucht, wäre es energieeffizienter, wenn die anderen GPUs ihr Tempo drosseln würden.
Perseus: Open-Source-Tool soll beim Energiesparen helfen
Um den Stromverbrauch zu verringern, müsste also eine Software einzelne Berechnungen verlangsamen, ohne dabei die Gesamtdauer des Trainings negativ zu beeinflussen. Genau dafür haben die Forscher:innen mit Perseus eine Open-Source-Lösung entwickelt. Das Tool kontrolliert die GPU-Frequenz jeder einzelnen Berechnung, um so den gesamten Stromverbrauch möglichst gering zu halten.