Bislang benötigt KI teure Chips – diese Physiker wollen das ändern
Auf einem Tisch in seinem Labor an der University of Pennsylvania hat der Forscher Sam Dillavou eine Reihe von Breadboards mit einem Netz aus bunten Drähten verbunden. Der Aufbau sieht aus wie ein Projekt eines Heimwerkers, nicht besonders elegant. Aber diese unscheinbare Anordnung, die 32 variable Widerstände enthält, kann lernen. Genauer: Sie sortiert Daten ähnlich wie Machine-Learning-Modelle.
Auch wenn die Fähigkeiten des Systems derzeit nur rudimentär sind, besteht die Hoffnung, dass dieser Prototyp eine energiesparende Alternative zu stromfressenden Grafikchips (Graphical Processing Unit, GPU) bietet, die derzeit häufig beim maschinellen Lernen eingesetzt und für viel Geld von Konzernen wie Nvidia verkauft werden. „Jeder Widerstand ist für sich genommen einfach und irgendwie bedeutungslos“, sagt Dillavou, der von Haus aus Physiker ist. „Aber wenn man sie in ein Netzwerk einbindet, kann man sie auf eine Vielzahl von Aufgaben trainieren.“
Eine davon, die der Schaltkreis bereits erfüllt hat: die Klassifizierung von Blumen nach Eigenschaften wie Länge und Breite der Blütenblätter. Anhand der Maße dieser Blumen konnte das System sie in drei Arten der Iris einordnen. Diese Art von Aufgabe ist als lineares Klassifizierungsproblem bekannt, denn wenn die Informationen zu den Blumen in ein Diagramm eingetragen werden, lassen sich die Daten mithilfe gerader Linien sauber in die richtigen Kategorien einteilen. In der Praxis stellten die Forscher die Blumendaten als Spannungswerte dar, die sie als Eingang in die Schaltung einspeisten. Der Schaltkreis erzeugte dann eine Ausgangsspannung, die einer der drei Arten entsprach.
Dies ist eine grundlegend andere Art der Codierung von Daten als bei GPUs, die Informationen in Form von binären Einsen und Nullen darstellen. In Dillavous Schaltkreis kann die Information eine maximale oder minimale Spannung oder irgendetwas dazwischen annehmen. Die Schaltung hat bereits 120 verschiedene Blumen mit 95-prozentiger Genauigkeit klassifiziert.
In einem weiteren Schritt ist es dem Team gelungen, das System für ein komplexeres Problem zu nutzen. In einer Vorabveröffentlichung, die derzeit im Peer-Review ist, haben die Forscher gezeigt, dass der Schaltkreis eine als XOR bekannte logische Operation durchführen kann, bei der er zwei Binärzahlen aufnimmt und feststellt, ob die Eingänge gleich sind. Dies ist eine nicht lineare Klassifizierungsaufgabe, sagt Dillavou, und „Nichtlinearitäten sind die geheime Zutat hinter allem maschinellen Lernen“.
Solche Demonstrationen sind ein Kinderspiel für Geräte, die wir jeden Tag benutzen. Aber das ist bei der Forschung nicht der Punkt: Dillavou und seine Kollegen bauten ihren Schaltkreis als Versuch, bessere Designs für Rechner zu finden. Die Computerindustrie steht vor einer existenziellen Herausforderung in der KI: Es müssen immer leistungsfähigere Geräte her. Zwischen 2012 und 2018 ist die für modernste KI-Modelle erforderliche Rechenleistung um das 300.000-Fache angestiegen. Heute verbraucht das Training eines großen Sprachmodells so viel Energie wie mehr als hundert US-Haushalten in einem Jahr. Das ist teuer und schlecht für das Klima. Dillavou hofft, dass sein System einen alternativen, energieeffizienteren Ansatz zur Entwicklung schnellerer KI-Technik bietet.
Training in Paaren
Damit die Schaltkreise ihre verschiedenen Aufgaben korrekt ausführen können, müssen sie trainiert werden, genau wie moderne Modelle für maschinelles Lernen, die auf herkömmlichen Computerchips laufen. ChatGPT hat zum Beispiel gelernt, menschlich klingende Texte zu erzeugen, nachdem ihm sehr viele Beispiele von echtem menschlichen Text gezeigt worden sind. Dillavous Schaltkreis hat gelernt, vorherzusagen, welche Maße welcher Art von Iris entsprechen, nachdem ihm die dafür passenden gelabelten Beispiele präsentiert worden sind.
Um das Gerät zu trainieren, wird ein zweiter, identischer Schaltkreis verwendet, der das erste Gerät „instruiert“. Beide Schaltungen beginnen mit den gleichen Widerstandswerten für jeden ihrer 32 variablen Widerstände. Dillavou speist dann beide Schaltungen mit denselben Eingangswerten – eine Spannung, die beispielsweise der Blütenblattbreite entspricht – und stellt die Ausgangsspannung der zweiten Schaltung so ein, dass sie der richtigen Art entspricht. Der erste Schaltkreis erhält eine Rückmeldung von diesem zweiten Schaltkreis – und beide Schaltkreise stellen ihre Widerstände so ein, dass sie auf die gleichen Werte konvergieren. Der Zyklus beginnt erneut mit einer neuen Eingabe, bis sich die Schaltkreise auf eine Reihe von Widerstandswerten geeinigt haben, die die richtige Ausgabe für die Trainingsbeispiele erzeugen. Im Wesentlichen trainiert das Team das Gerät mit einer Methode, die als überwachtes Lernen (Supervised Learning) bekannt ist, bei dem ein KI-Modell aus mit Labels versehenen Daten lernt, Bezeichnungen für neue Beispiele vorherzusagen.
Laut Dillavou kann es hilfreich sein, sich den elektrischen Strom im Schaltkreis als Flüssigkeit vorzustellen, die durch ein Netzwerk von Rohren fließt. Die Gleichungen für den Flüssigkeitsstrom sind analog zu denen für den Elektronenfluss und die Spannung. Die Spannung entspricht dem Flüssigkeitsdruck, während der elektrische Widerstand dem Rohrdurchmesser entspricht. Während des Trainings passen die verschiedenen „Rohre“ im Netz ihren Durchmesser in verschiedenen Teilen des Systems an, um den gewünschten Ausgangsdruck zu erreichen. Tatsächlich hat das Team erstaunlicherweise erwogen, den Schaltkreis aus Wasserrohren und nicht aus Elektronik zu bauen.
Für Dillavou ist ein faszinierender Aspekt seines Systems das, was er als „emergentes Lernen“ bezeichnet. Bei einem Menschen „macht jedes Neuron sein eigenes Ding“, sagt er. „Und dann, als emergentes Phänomen, lernt man. Sie haben Verhaltensweisen. Sie fahren Fahrrad.“ Ähnlich verhält es sich mit dem Schaltkreis. Jeder Widerstand stellt sich selbst nach einer einfachen Regel ein, aber gemeinsam „finden“ sie die Antwort auf eine kompliziertere Frage ohne ausdrückliche Anweisungen.
Ein potenzieller Energievorteil
Dillavous Prototyp gehört in den Bereich der analogen Computer. Er kodiert Informationen entlang eines Kontinuums von Werten anstelle der diskreten Nullen und Einsen, die in digitalen Schaltkreisen verwendet werden. Schon die ersten Computer waren analog, aber ihre digitalen Gegenstücke verdrängten sie dann, nachdem Ingenieure Fertigungstechniken entwickelt hatten, um immer mehr Transistoren auf digitale Chips zu quetschen und deren Geschwindigkeit zu erhöhen. Experten wissen jedoch seit Langem, dass analoge Computer mit zunehmender Rechenleistung eine bessere Energieeffizienz aufweisen als digitale Computer. Aatmesh Shrivastava, Elektroingenieur an der Northeastern University, bestätigt das. „Die Vorteile der Energieeffizienz stehen hier nicht zur Debatte.“ Das Problem bleibe das höhere Rauschen bei analogen Signalen. Das macht die Systeme für Aufgaben, die hohe Präzision erfordern, ungeeignet – eigentlich.
In der Praxis hat Dillavous Schaltung die digitalen Chips in Sachen Energieeffizienz sowieso noch nicht überholt. Sein Team schätzt, dass ihr Prototyp etwa 5 bis 20 Pikojoule pro Widerstand benötigt, um einen einzigen Output zu erzeugen, wobei jeder Widerstand einen einzelnen Parameter in einem neuronalen Netz darstellt. Laut Dillavou ist dies nur etwa ein Zehntel so effizient wie bei modernen KI-Chips. Das Versprechen des analogen Ansatzes liegt seiner Meinung nach jedoch in der Skalierung des Schaltkreises, um die Anzahl der Widerstände und damit die Rechenleistung zu erhöhen.
Er erklärt die potenziellen Energieeinsparungen folgendermaßen: Digitale Chips wie GPUs verbrauchen Energie pro Operation. Wenn man also einen Chip herstellt, der mehr Operationen pro Sekunde ausführen kann, bedeutet das, dass der Chip mehr Energie pro Sekunde verbraucht. Im Gegensatz dazu hängt der Energieverbrauch seines analogen Computers davon ab, wie lange er eingeschaltet ist. „Würden Sie ihren Computer doppelt so schnell machen, würde er auch doppelt so energieeffizient sein.“
Dillavous Schaltung ist auch eine Art „neuromorpher“ Computer, also einer, der vom Gehirn inspiriert ist. Wie andere neuromorphe Systeme arbeitet auch der Schaltkreis der Forscher nicht nach Anweisungen von oben nach unten (Top-down-Instruktion), wie es bei herkömmlichen Computern der Fall ist. Stattdessen passen die Widerstände ihre Werte als Reaktion auf externe Rückmeldungen in einem Bottom-up-Ansatz an, ähnlich wie Neuronen auf Reize reagieren. Darüber hinaus verfügt das Gerät nicht über spezielle Bauteile für den Speicher. Dies könnte einen weiteren Vorteil in Bezug auf die Energieeffizienz bieten, da ein herkömmlicher Computer eine beträchtliche Menge an Energie aufwendet, um Daten zwischen Prozessor und Speicher zu übertragen.
Neuromorphe Maschinen
Zwar haben Forscher bereits eine Vielzahl neuromorpher Maschinen auf der Grundlage unterschiedlicher Materialien und Designs gebaut, doch die technologisch ausgereiftesten Designs basieren immer noch auf Halbleiterchips. Ein Beispiel dafür ist Intels neuromorpher Computer Loihi 2, zu dem das Unternehmen ab 2021 Forschern aus Regierung, Wissenschaft und Industrie Zugang gewährt. Deepsouth, eine chipbasierte neuromorphe Maschine an der Western Sydney University, die in der Lage sein soll, die Synapsen des menschlichen Gehirns in großem Maßstab zu simulieren, soll noch in diesem Jahr in Betrieb gehen.
Auch Unternehmen aus dem Bereich des maschinellen Lernens haben Interesse an der chipbasierten neuromorphen Datenverarbeitung gezeigt. Ein in San Francisco ansässiges Start-up namens Rain Neuromorphics konnte im Februar 25 Millionen US-Dollar einwerben. Die Physiker haben jedoch noch keine kommerzielle Anwendung gefunden, bei der das neuromorphe Computing einen eindeutigen Vorteil gegenüber herkömmlichen Digitalrechnern aufweist. In der Zwischenzeit arbeiten Forscher wie das Team von Dillavou an neuen Konzepten, um das Feld voranzutreiben. Einige Personen aus der Industrie hätten Interesse an seinem Schaltkreis bekundet. „Die Leute sind vor allem an der Energieeffizienz interessiert“, sagt Dillavou.
Noch handelt es sich um ein Prototypsystem, dessen Energiesparpotenzial nicht bestätigt ist. Für seine Demonstrationen hat das Team die Schaltung auf Breadboards aufgebaut, weil sie „am einfachsten zu handhaben und am schnellsten zu verändern“ sind. Das Format leidet allerdings unter allen möglichen Ineffizienzen. In einem nächsten Schritt soll das System auf gedruckte Leiterplatten überführt werden. Dillavou und sein Team planen dann, das Design zu vergrößern, damit es kompliziertere Aufgaben durchführen kann. Es bleibt abzuwarten, ob sich diese clevere Idee auch außerhalb des Labors durchsetzen kann.