Was passiert eigentlich nach der Prompt-Eingabe in ein KI-Modell und wie genau entstehen die Texte, die ChatGPT und Co. auf Anfrage ausspucken? An einem Tool, das die Antworten darauf transparent offenlegen soll, arbeitet derzeit ein Entwicklungsteam von OpenAI.
Als Versuchsobjekt dient unter anderem das hauseigene Sprachmodell GPT-2, beim Aufschlüsseln helfen soll GPT-4.
OpenAI-Team will KI-Modelle verstehen: Wozu das Ganze?
Projektleiter William Saunders und sein Team wollen einen besseren Einblick in die Arbeitsweise von großen Sprachmodellen (LLM). Das übergeordnete Ziel: „Wir wollen wirklich in der Lage sein zu wissen, dass wir dem, was das Modell tut, und der Antwort, die es produziert, vertrauen können”, so Saunders gegenüber der Plattform Techcrunch. Mit seinem Team suche er nach Wegen, künftig besser „zu antizipieren, was die Probleme mit einem KI-System sein werden”.
Helfen soll dabei ein System, das automatisiert ermittelt, welche Komponenten eines LLM welche Verhaltensweisen auslösen. Bisher wurden die Neuronen, die in Sprachmodellen zum Einsatz kommen, einzeln, manuell und damit sehr zeitaufwendig untersucht. „Dieser Prozess lässt sich nicht gut skalieren: Es ist schwierig, ihn auf neuronale Netze mit Dutzenden oder Hunderten von Milliarden von Parametern anzuwenden”, heißt es von OpenAI in einem Blogbeitrag.
Noch stecke das Projekt in den Kinderschuhen – erste Einblicke gibt es seit dieser Woche nicht nur auf dem Blog, sondern auch via Github.
KI-Modelle automatisiert durchleuchten: Das ist der Plan von OpenAI
Ähnlich wie Neuronen im menschlichen Gehirn erkennen die Neuronen im KI-Modell bestimmte Muster in Texten und ziehen daraus Schlussfolgerungen für den eigenen Output. Das Team von Saunders nutzt diese Arbeitsweise wie folgt: Das Modell, dessen Arbeitsweise untersucht werden soll – zu Demo-Zwecken hat OpenAI hierfür GPT-2 genutzt –, bekommt verschiedene Textsequenzen zur Verarbeitung vorgelegt.
Das neue OpenAI-Tool überwacht die Verarbeitung und registriert währenddessen, ob es Neuronen gibt, die besonders häufig aktiviert werden. Diese Auswertung wird an ChatGPT-4 weitergegeben, das analysieren und erklären soll, wofür die einzelnen Neuronen zuständig sind. Es folgt der Gegencheck, wie zutreffend die Erklärung ist: ChatGPT-4 bekommt neue Textsequenzen vorgelegt und soll simulieren, wie die beobachteten Neuronen darauf reagieren würden. Abschließend wird die gleiche Sequenz durch das ursprüngliche Modell – im Beispiel GPT-2 – geschickt und das Ergebnis mit der Simulation abgeglichen.
„Mit dieser Methode können wir im Grunde für jedes einzelne Neuron eine Art vorläufige Erklärung in natürlicher Sprache dafür finden, was es tut, und haben auch eine Bewertung dafür, wie gut diese Erklärung mit dem tatsächlichen Verhalten übereinstimmt”, so Jeff Wu, OpenAI-Teamleiter für Scalable Alignment.
Neues OpenAI-Tool: Bis zum Release wird es noch dauern
Die Erklärungen für alle 307.200 Neuronen in GPT-2 genauso wie der Toolcode sind mittlerweile öffentlich auf der OpenAI API zugänglich. Sonderlich gut funktioniert die neue Methode den Entwickler:innen zufolge allerdings noch nicht: Nur 1.000 Neuronen-Erklärungen waren tatsächlich zuverlässig.
„Viele der Neuronen sind zum Beispiel auf eine Weise aktiv, bei der es sehr schwer ist zu sagen, was vor sich geht – sie werden zum Beispiel bei fünf oder sechs verschiedenen Dingen aktiviert, aber es gibt kein erkennbares Muster”, gibt Wu gegenüber Techchrunch zu. Und „manchmal gibt es ein erkennbares Muster, aber GPT-4 ist nicht in der Lage, es zu finden”.
Zusätzliche Probleme gibt es außerdem bei Modellen, die größer und komplexer sind als GPT-2. Man habe dementsprechend noch „einen langen Weg” vor sich, bis tatsächlich ein Tool steht, dass die Vorgänge in Sprachmodellen automatisiert aufschlüsseln kann.