OpenAI hat ein experimentelles großes Sprachmodell entwickelt, das weitaus transparenter arbeitet als herkömmliche Modelle. Das könnte hilfreich sein, KI wirklich zu verstehen, denn die heutigen Large Language Models (LLMs) sind wie eine Black Box: Kein Mensch kann bislang vollständig erfassen, wie sie funktionieren. OpenAI möchte mit seinem neuen Modell dabei helfen, herauszufinden, wie LLMs grundsätzlich funktionieren. Forschende könnten zudem zumindest in Ansätzen verstehen, warum die Modelle so oft halluzinieren, bei ihren Antworten aus der Bahn geworfen werden – und wie sicher sie für kritische Aufgaben wirklich sind.

„Da KI-Systeme immer leistungsfähiger werden, werden sie zunehmend in wichtige Bereiche integriert“, erklärte Leo Gao, Forscher bei OpenAI, gegenüber MIT Technology Review während einer exklusiven Vorschau auf das neue LLM. „Es ist von großer Bedeutung, sicherzustellen, dass sie sicher sind.“

Auf dem Niveau von GPT-1 – aber das macht nichts

Das KI-System ist noch in einem frühen Forschungsstadium. Das neue Modell, das als „Weight-Sparse Transformer“ (WST) bezeichnet wird, ist weitaus kleiner und weniger leistungsfähig als marktführende KI-Modelle wie GPT-5 von OpenAI, Claude von Anthropic oder Gemini von Google Deepmind. Es sei höchstens so leistungsfähig wie GPT-1, ein Modell, das OpenAI bereits 2018 entwickelt hat, sagt Gao – auch wenn es bislang keinen direkten Vergleichstest gab.

Das Ziel ist jedoch nicht, dass der WST mit den besten Modellen seiner Klasse konkurriert, zumindest bisher nicht. Stattdessen hofft OpenAI, durch die Untersuchung der Funktionsweise des experimentellen Modells mehr über die verborgenen Mechanismen größerer und besserer Versionen seiner Modelle zu erfahren. Sie halte das für einen interessanten Forschungsansatz, sagt Elisenda Grigsby, Mathematikerin am Boston College, die sich mit der Funktionsweise von LLMs beschäftigt und nicht an dem Projekt beteiligt war. Sie sei sich sicher, „dass die vorgestellten Methoden einen wichtigen Einfluss“ auf die Forschung haben könnten. Lee Sharkey, Wissenschaftler beim KI-Startup Goodfire, sieht das ähnlich. „Die Arbeit zielt auf den richtigen Bereich ab und scheint gut umgesetzt zu sein“, sagt er.

Warum Modelle so schwer zu verstehen sind

Der WST ist Teil eines neuen, mittlerweile in der Szene viel beachteten Forschungsgebiets, das als „mechanistic interpretability“ (mechanistische Interpretierbarkeit) bekannt ist und versucht, die internen Mechanismen abzubilden, die Modelle bei der Durchführung verschiedener Aufgaben verwenden. Das ist deutlich schwieriger, als es klingt. LLMs bestehen aus neuronalen Netzen, die aus zahllosen Knotenpunkten, sogenannten Neuronen, bestehen, die in Schichten angeordnet sind. In den meisten Netzen ist jedes Neuron mit jedem anderen Neuron in den benachbarten Schichten verbunden. Ein solches Netz wird als „dense network“ (dichtes Netzwerk) bezeichnet.

Dense Networks sind relativ effizient zu trainieren und zu betreiben, aber sie verteilen das Gelernte über ein riesiges Geflecht von Verknüpfungen. Das Ergebnis ist, dass selbst einfache Konzepte oder Funktionen zwischen Neuronen in verschiedenen Teilen eines Modells aufgeteilt sind. Gleichzeitig können bestimmte Neuronen auch mehrere verschiedene Merkmale repräsentieren – ein Phänomen, das als Superposition bekannt ist (eigentlich ein Begriff aus der Quantenphysik). Das Ergebnis: Man kann bestimmte Teile eines Modells nicht einfach mit bestimmten Fähigkeiten in Verbindung bringen.

Einfachere Verteilung erleichtert das Verständnis

„Neuronale Netze sind groß, kompliziert und verworren – und sehr schwer zu verstehen“, sagt Dan Mossing, der das Mechanistic-Interpretability-Team bei OpenAI leitet. „Wir haben uns nun gesagt: Was wäre, wenn wir versuchen würden, das zu ändern?“ Anstatt ein Modell mit einem Dense Network zu erstellen, begann OpenAI mit einer neuen Art von neuronalem Netzwerk, eben dem WST. Beim Weight-Sparse Transformer ist jedes Neuron nur mit wenigen anderen Neuronen verbunden. Dadurch wird das Modell gezwungen, Erlerntes in lokalisierten Clustern darzustellen, anstatt sie über das ganze Netzwerk zu verteilen.

Das Modell ist dadurch weitaus langsamer als jedes andere LLM auf dem Markt. Aber es ist einfacher, seine Neuronen oder Neuronengruppen mit bestimmten Konzepten und Funktionen in Verbindung zu bringen – wo stehen die Informationen über das Kochen, wo die über Medizin? „Es gibt dadurch einen wirklich drastischen Unterschied in der Interpretierbarkeit des Modells“, sagt Gao. Der OpenAI-Forscher und seine Kollegen haben das neue Modell anfangs mit sehr einfachen Aufgaben getestet. Sie haben den WST unter anderem gebeten, einen Textblock, der mit Anführungszeichen beginnt, zu vervollständigen, indem das System am Ende passende Zeichen hinzufügt. Für ein LLM ist das eine triviale Aufgabe. Der zentrale Punkt dabei ist, dass man, um herauszufinden, wie ein Modell selbst eine so einfache Aufgabe bewältigt, bislang ein kompliziertes Gewirr von Neuronen und Knoten entwirren muss, sagt Gao. Mit dem neuen Modell konnten sie jedoch die genauen Schritte nachvollziehen, die das Modell unternimmt.

Transparentes Modell auf dem Niveau von GPT-3

Das Team habe tatsächlich den Bereich (Circuit) gefunden, der genau dem Algorithmus entspricht, den man für die Aufgabe von Hand implementieren würde, aber er wurde vollständig vom Modell erlernt, sagt er. „Das ist wirklich cool und spannend.“ Wie geht die Forschung nun aber weiter? Zumindest Mathematikerin Grigsby ist nicht davon überzeugt, dass sich die Technik wirklich auf größere Modelle übertragen lässt, die eine Vielzahl schwierigerer Aufgaben bewältigen müssen.

Die OpenAI-Forschenden Gao und Mossing räumen ein, dass dies eine große Einschränkung von WSTs ist. Sie sind sich daher einig, dass dieser Ansatz niemals zu Modellen führen wird, die mit der Leistung von Spitzen-LLMs wie GPT-5 mithalten können. Dennoch glaubt man bei OpenAI, dass es möglich sein wird, die Technik deutlich zu verbessern. Gao und Mossing sind überzeugt, dass so ein transparentes Modell entstehen könnte, das immerhin mit GPT-3, dem LLM des Unternehmens aus dem Jahr 2021, das in der späteren Version 3.5 ab November 2022 ChatGPT ermöglichte, mithalten kann. „Vielleicht könnten wir in ein paar Jahren ein vollständig interpretierbares GPT-3 haben, sodass man jeden einzelnen Teil davon untersuchen und verstehen kann, wie jede einzelne Funktion ausgeführt wird“, sagt Gao. An einem solchen System könne man enorm viel lernen.

Dieser Artikel stammt von Will Douglas Heaven. Er ist Senior Editor bei der US-amerikanischen Ausgabe von MIT Technology Review und ist für den Bereich KI zuständig.