OpenAI: Neues Tool soll das Verhalten von KI-Modellen erklären

Was passiert eigentlich nach der Prompt-Eingabe in ein KI-Modell und wie genau entstehen die Texte, die ChatGPT und Co. auf Anfrage ausspucken? An einem Tool, das die Antworten darauf transparent offenlegen soll, arbeitet derzeit ein Entwicklungsteam von OpenAI.
Als Versuchsobjekt dient unter anderem das hauseigene Sprachmodell GPT-2, beim Aufschlüsseln helfen soll GPT-4.
Projektleiter William Saunders und sein Team wollen einen besseren Einblick in die Arbeitsweise von großen Sprachmodellen (LLM). Das übergeordnete Ziel: „Wir wollen wirklich in der Lage sein zu wissen, dass wir dem, was das Modell tut, und der Antwort, die es produziert, vertrauen können”, so Saunders gegenüber der Plattform Techcrunch. Mit seinem Team suche er nach Wegen, künftig besser „zu antizipieren, was die Probleme mit einem KI-System sein werden”.
Helfen soll dabei ein System, das automatisiert ermittelt, welche Komponenten eines LLM welche Verhaltensweisen auslösen. Bisher wurden die Neuronen, die in Sprachmodellen zum Einsatz kommen, einzeln, manuell und damit sehr zeitaufwendig untersucht. „Dieser Prozess lässt sich nicht gut skalieren: Es ist schwierig, ihn auf neuronale Netze mit Dutzenden oder Hunderten von Milliarden von Parametern anzuwenden”, heißt es von OpenAI in einem Blogbeitrag.
Noch stecke das Projekt in den Kinderschuhen – erste Einblicke gibt es seit dieser Woche nicht nur auf dem Blog, sondern auch via Github.
Ähnlich wie Neuronen im menschlichen Gehirn erkennen die Neuronen im KI-Modell bestimmte Muster in Texten und ziehen daraus Schlussfolgerungen für den eigenen Output. Das Team von Saunders nutzt diese Arbeitsweise wie folgt: Das Modell, dessen Arbeitsweise untersucht werden soll – zu Demo-Zwecken hat OpenAI hierfür GPT-2 genutzt –, bekommt verschiedene Textsequenzen zur Verarbeitung vorgelegt.
Das neue OpenAI-Tool überwacht die Verarbeitung und registriert währenddessen, ob es Neuronen gibt, die besonders häufig aktiviert werden. Diese Auswertung wird an ChatGPT-4 weitergegeben, das analysieren und erklären soll, wofür die einzelnen Neuronen zuständig sind. Es folgt der Gegencheck, wie zutreffend die Erklärung ist: ChatGPT-4 bekommt neue Textsequenzen vorgelegt und soll simulieren, wie die beobachteten Neuronen darauf reagieren würden. Abschließend wird die gleiche Sequenz durch das ursprüngliche Modell – im Beispiel GPT-2 – geschickt und das Ergebnis mit der Simulation abgeglichen.
„Mit dieser Methode können wir im Grunde für jedes einzelne Neuron eine Art vorläufige Erklärung in natürlicher Sprache dafür finden, was es tut, und haben auch eine Bewertung dafür, wie gut diese Erklärung mit dem tatsächlichen Verhalten übereinstimmt”, so Jeff Wu, OpenAI-Teamleiter für Scalable Alignment.
Die Erklärungen für alle 307.200 Neuronen in GPT-2 genauso wie der Toolcode sind mittlerweile öffentlich auf der OpenAI API zugänglich. Sonderlich gut funktioniert die neue Methode den Entwickler:innen zufolge allerdings noch nicht: Nur 1.000 Neuronen-Erklärungen waren tatsächlich zuverlässig.
„Viele der Neuronen sind zum Beispiel auf eine Weise aktiv, bei der es sehr schwer ist zu sagen, was vor sich geht – sie werden zum Beispiel bei fünf oder sechs verschiedenen Dingen aktiviert, aber es gibt kein erkennbares Muster”, gibt Wu gegenüber Techchrunch zu. Und „manchmal gibt es ein erkennbares Muster, aber GPT-4 ist nicht in der Lage, es zu finden”.
Zusätzliche Probleme gibt es außerdem bei Modellen, die größer und komplexer sind als GPT-2. Man habe dementsprechend noch „einen langen Weg” vor sich, bis tatsächlich ein Tool steht, dass die Vorgänge in Sprachmodellen automatisiert aufschlüsseln kann.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team