KI-Nostalgie: Llama 2 Sprachmodell meistert den Betrieb auf einem Windows 98 Rechner

Viele KI-Unternehmen wie OpenAI, Google und Meta haben in den vergangenen Jahren ihre Modelle immer weiter nach oben skaliert. Um die großen Sprachmodelle mit Milliarden Parametern zu betreiben und für alle Nutzer:innen gleichzeitig zur Verfügung zu stellen, benötigt es eine enorme Rechenleistung. Doch was, wenn wir diese gar nicht hätten, sondern immer noch mit alter Technik unterwegs wären?
So sieht ein Sprachmodell unter Windows 98 aus
Diese Frage hat sich auch die Programmierer:innen bei EXO Labs gestellt. Sie haben sich kurzerhand einen alten Windows-98-Rechner besorgt, um das auszuprobieren. Die Hardware ist laut einem Blog-Beitrag mehr als 25 Jahre alt. Auf Ebay haben die Verantwortlichen dafür noch rund 119 britische Pfund gezahlt. Im Inneren der Windows-98-Maschine steckt ein Intel Pentium II sowie 128 Megabyte Arbeitsspeicher.
Im Vergleich mit heutigen Heimcomputern ist das natürlich schon eine verschwindend geringe Leistung. Vergleichen wir das Ganze mit KI-Rechenzentren, deren Stromverbrauch immer weiter in die Höhe schnellt, scheint das Vorhaben schon fast unmöglich. Doch tatsächlich kann auf dem Rechner mit ein paar Handgriffen eine kleine Version von Llama 2 mit insgesamt 260.000 Parametern betrieben werden.
Die Handgriffe umfassen dabei etwa das Anschließen alter PS/2-Hardware, weil die vorhandenen USB-Ports nicht funktionierten. Danach wurde Llama 2 per FTP auf den PC übertragen. Auch das war nur eine Notlösung, weil Discs vom PC nicht erkannt wurden und die vorhandene Festplatte mit vier Terabyte Speicher zu groß für das Dateisystem FAT32 unter Windows 98 war.
Das Resultat: Mit dem alten Windows 98 lassen sich mit dem 260K-Modell rund 40 Tokens pro Sekunde generieren. Die Programmierer:innen reizten die alte Hardware aber auch mit einem Sprachmodell mit 15 Millionen Parametern aus. Hier geriet die Hardware dann doch ins Schwitzen und generierte nur einen Token pro Sekunde. Anhand eines Benchmarks errechneten die Programmierer:innen noch, wie lang der Windows-98-PC mit einem Modell von Llama 3.2 und damit einer Milliarde Parameter auskommen würde. Das Ergebnis ist mit 0,0093 Token pro Sekunde aber für die ernsthafte KI-Nutzung unbrauchbar.