Anzeige
Anzeige
MIT Technology Review Analyse

So will Google Deepmind KI-Systemen in den „Kopf“ schauen

Große Sprachmodelle sind aktuell noch eine Blackbox. Sogenannte Autoencoder könnten helfen, nachzuverfolgen, wie die Systeme zu ihren Ergebnissen kommen – um sie besser zu steuern.

Von MIT Technology Review Online
9 Min.
Artikel merken
Anzeige
Anzeige
Roboterkunst könnte bald vom Kuriosum zum ernstzunehmenden Einfluss auf dem Kunstmarkt werden. (Bild: Stock-Asso/Shutterstock)

Die Künstliche Intelligenz hat zu Durchbrüchen in zahlreichen Bereichen geführt, von der Arzneimittelforschung bis zur Robotik. Sie ist außerdem dabei, die Art und Weise, wie wir mit Rechnern und dem Internet interagieren, zu revolutionieren. Wäre da nicht ein wichtiges Problem: Wir wissen immer noch nicht genau, wie große Sprachmodelle wirklich funktionieren – beziehungsweise, warum sie so gut funktionieren. Wir haben eine ungefähre Vorstellung, aber die Details innerhalb der KI-Systeme sind zu komplex, um sie zu entschlüsseln. Das ist ein Problem: Es könnte dazu führen, dass wir Künstliche Intelligenz in einem hochsensiblen Bereich wie der Medizin einsetzen, ohne zu verstehen, dass sie in ihrer Funktionsweise kritische Schwachstellen haben könnte.

Anzeige
Anzeige

Ein Team bei Google Deepmind, das sich mit der sogenannten mechanistischen Interpretierbarkeit (Mechanistic Interpretability) beschäftigt, hat an neuen Methoden gearbeitet, die es uns ermöglichen sollen, unter die Haube der KI zu blicken. Ende Juli veröffentlichte die Firma Gemma Scope, ein Tool, das Forschern helfen soll, zu verstehen, was passiert, wenn generative Systeme eine Ausgabe erzeugen. Die Hoffnung ist, dass wir, wenn wir besser verstehen, was im Inneren eines KI-Modells vor sich geht, in der Lage sein werden, dessen Ergebnisse effektiver zu kontrollieren, was in Zukunft zu grundlegend besseren KI-Systemen führen wird.

„Es sollte möglich sein, die Gedanken eines KI-Modells zu lesen“

„Ich möchte in der Lage sein, in ein Modell hineinzuschauen und zu sehen, ob es trügerisch agiert“, sagt Neel Nanda, der das Team für mechanistische Interpretierbarkeit bei Google Deepmind leitet. „Es sollte möglich sein, quasi die Gedanken eines Modells zu lesen.“ Mechanistische Interpretierbarkeit, auch bekannt als „Mech Interp“, ist ein neues Forschungsgebiet, das darauf abzielt, zu verstehen, wie neuronale Netzwerke tatsächlich funktionieren. Gegenwärtig ist es so, dass wir einem Modell eine Menge Daten geben und am Ende des Trainings eine Reihe von Modellgewichten erhalten. Das sind die Parameter, die bestimmen, wie ein Modell Entscheidungen trifft. Wir haben eine Vorstellung davon, was zwischen dem Input und den Modellgewichten passiert: Im Wesentlichen sucht die KI nach Mustern in den Daten und zieht Schlussfolgerungen aus diesen Mustern. Aber diese Muster können unglaublich komplex sein und sind für Menschen oft sehr schwer zu interpretieren.

Anzeige
Anzeige

Es ist ungefähr wie bei einem Lehrer, der die Antworten auf eine komplexe Matheaufgabe in einem Test überprüft. Der Schüler – in diesem Fall die KI – hat die richtige Antwort aufgeschrieben, aber der Weg dahin sieht aus wie ein Haufen verschnörkelter Linien. Und in diesem Beispiel wird davon ausgegangen, dass die KI immer die richtige Antwort kennt, aber das ist nicht immer der Fall; der KI-Schüler hat vielleicht ein irrelevantes Muster gefunden, das er dennoch für gültig hält. Einige aktuelle KI-Systeme liefern zum Beispiel das Ergebnis, dass 9,11 größer als 9,8 (in US-Form ausgeschrieben: 9.11 oder 9.8) ist. Verschiedene Methoden, die auf dem Gebiet der mechanistischen Interpretierbarkeit entwickelt wurden, beginnen nun, ein wenig Licht in die Sache zu bringen, indem sie besagten verschnörkelten Linien einen Sinn geben.

Dem KI-Modell auf der Spur mit einem „Sparse Autoencoder“

„Ein Hauptziel der mechanistischen Interpretierbarkeit ist der Versuch, die Algorithmen innerhalb dieser Systeme praktisch zurückzuentwickeln“, sagt Nanda. „Wir geben dem Modell eine Aufforderung – zum Beispiel ‚Schreibe ein Gedicht‘ – und dann schreibt es ein paar gereimte Zeilen. Was ist der Algorithmus, mit dem es das gemacht hat? Das würden wir gerne verstehen.“

Anzeige
Anzeige

Um Merkmale – oder Datenkategorien, die ein größeres Konzept darstellen – in Googles KI-Modell Gemma zu finden, hat Deepmind ein Tool namens „Sparse Autoencoder“ auf jede seiner zahlreichen Schichten angewendet. Man kann sich einen Sparse-Autoencoder wie ein Mikroskop vorstellen, das diese Schichten vergrößert und einen Blick auf ihre Details ermöglicht. Wenn man Gemma zum Beispiel nach einem Chihuahua fragt, wird die Funktion „Hunde“ ausgelöst, die beleuchtet, was das Modell über „Hunde“ weiß. Der Grund dafür, dass der Autoencode als „sparse“ bezeichnet wird, ist, dass er die Anzahl der verwendeten digitalen Neuronen begrenzt und im Grunde eine effizientere und allgemeinere Darstellung der Daten anstrebt.

Eine Frage des Zooms

Der knifflige Teil von Autoencodern besteht darin, zu entscheiden, wie granular sie sein sollen. Noch einmal an das Mikroskop gedacht: Man kann etwas bis zu einem extremen Grad vergrößern, aber dann kann das, was man sieht, für Menschen unmöglich zu interpretieren sein. Zoomt man aber zu weit heraus, schränkt man möglicherweise die interessanten Dinge ein, die sich zu entdecken lohnen.

Anzeige
Anzeige

Die Lösung von Deepmind bestand darin, Sparse-Autoencoder unterschiedlicher Größe laufen zu lassen und so die Anzahl der Merkmale zu variieren, die der Autoencoder finden soll. Das Ziel war nicht, dass nur die Deepmind-Forscher:innen selbst die Ergebnisse gründlich analysieren. Gemma und die Autoencoder sind quelloffen, sodass dieses Projekt eher darauf abzielt, weitere interessierte Forscher dazu anzuregen, sich anzusehen, was die die Software gefunden hat –und hoffentlich neue Erkenntnisse über die interne Logik des Modells zu gewinnen. Da DeepMind seine Autocoder auf jeder Ebene des Modells einsetzte, könnte ein Forscher die Schritte von der Eingabe bis zur Ausgabe in einem Maße abbilden, wie wir es bisher noch nicht gesehen haben.

Den Prompt aufschlüsseln

„Das ist für Forscher:innen, die sich mit Interpretierbarkeit beschäftigen, wirklich aufregend“, sagt Josh Batson, ein Forscher beim Google-KI-Konkurrenten Anthropic. „Wenn man dieses System für andere zur Verfügung stellt, bedeutet das, dass eine Menge Interpretierbarkeitsforschung auf der Grundlage dieser Sparse-Autocoder durchgeführt werden kann.“ Das senke die Einstiegshürde für Menschen, die von diesen Methoden lernen wollen.

Neuronpedia, eine Plattform für mechanistische Interpretierbarkeit, hat sich im Juli mit Deepmind zusammengetan, um eine Demonstration von Gemma Scope zu erstellen, mit der jetzt jeder Nutzer herumspielen kann. In der Demo lassen sich verschiedene Prompts ausprobieren und sehen, wie das Modell den Prompt aufschlüsselt und welche neuronalen Aktivierungen der Prompt hervorruft. Man kann mit dem Modell auch Anpassungen vornehmen. Wenn man zum Beispiel die Funktion zum Thema Hunde stärkt und dann dem Modell eine Frage über US-Präsidenten stellen, wird Gemma einen Weg finden, zufällige Phrasen über Hunde einzuflechten – oder das Modell fängt einfach an, dich textlich anzubellen.

Anzeige
Anzeige

Auf der Suche nach dem Cringe-Merkmal

Ein interessanter Aspekt von Sparse-Autoencodern ist, dass sie unbeaufsichtigt arbeiten, das heißt, sie finden die Funktionen selbst. Das führt zu überraschenden Erkenntnissen darüber, wie die Modelle menschliche Konzepte aufschlüsseln. Sein persönliches Lieblingsmerkmal sei das sogenannte Cringe-Merkmal, sagt Joseph Bloom, wissenschaftlicher Leiter bei Neuronpedia. „Es scheint bei negativer Kritik an Texten und Filmen aufzutreten. Es ist einfach ein spannendes Beispiel dafür, wie man Dinge aufspüren kann, die auf einer bestimmten Ebene erstaunlich menschlich sind.“

Man kann auf Neuronpedia nach Begriffen suchen, um sich anzusehen, welche Funktion bei bestimmten Token oder Wörtern aktiviert werden und wie stark jedes einzelne davon aktiviert ist. „Wenn Sie den Text lesen und sehen, was grün hervorgehoben ist, dann ist das Modell der Meinung, dass das Konzept am relevantesten ist. Das aktivste Beispiel für „cringe“ ist jemand, der einen anderen anpöbelt“, sagt Bloom.

Nutzertäuschung kann nicht verboten werden

Einige Funktionen sind leichter nachzuverfolgen als andere. „Eines der wichtigsten Merkmale, die man für ein Modell finden möchte, ist Nutzertäuschung“, sagt Johnny Lin, Gründer von Neuronpedia. „Sie ist aber nicht so einfach zu finden: ‚Oh, da ist die Funktion, die auslöst, wenn uns das Modell anlügt‘. Nach dem, was er bislang gesehen habe, sei es einfach nicht der Fall, dass wir Täuschungen finden und sie verbieten könnten.

Anzeige
Anzeige

Die Forschung von Deepmind ähnelt dem, was ein anderes KI-Unternehmen, Anthropic, im Mai mit der Idee Golden Gate Claude gemacht hat. Es verwendete ebenfalls Sparse-Autoencoder, um die Teile von Claude, ihrem Modell, zu finden, die aufleuchteten, wenn sie mit ihm über die Golden Gate Bridge in San Francisco sprachen. Anschließend wurden die Aktivierungen im Zusammenhang mit der Brücke so weit verstärkt, dass Claude sich buchstäblich nicht als Claude, ein KI-Modell, sondern als die reale Golden Gate Bridge identifizierte und auf Prompts als Brücke reagierte.

Beispiel: geschlechtsspezifische Merkmale ausschalten

Die mechanistische Interpretierbarkeitsforschung mag zwar skurril erscheinen, kann sich aber als äußerst nützlich erweisen. „Als Werkzeug, um zu verstehen, wie das Modell verallgemeinert und auf welcher Abstraktionsebene es arbeitet, sind diese Funktionen wirklich hilfreich“, sagt Batson. Ein Team unter der Leitung von Samuel Marks, der jetzt bei Anthropic arbeitet, verwendete beispielsweise Sparse-Autoencoder, um Funktionen zu finden, die zeigten, dass ein Modell bestimmte Berufe mit einem bestimmten Geschlecht assoziierte. Anschließend schalteten sie diese geschlechtsspezifischen Merkmale aus, um den Bias des Modells zu verringern. Dieses Experiment wurde aber mit einem sehr kleinen Modell durchgeführt, sodass unklar ist, ob die Arbeit auch auf ein viel größeres Modell anwendbar ist.

Die mechanistische Interpretierbarkeitsforschung kann uns auch Aufschluss darüber geben, warum KI Fehler macht. Im Fall der Behauptung, dass 9,11 (9.11) größer als 9,8 (9.8) ist, stellten Forscher beim Projekt Transluce fest, dass die Frage erstaunlicherweise die Bereiche eines KI-Modells auslöste, die mit Bibelversen und dem 11. September zu tun hatten. Die Forscher kamen zu dem Schluss, dass die KI die Zahlen als Daten interpretieren und das spätere Datum, 9/11, nach US-Lesart als größer als 9/8 (8. September) einstufen könnte. In vielen Büchern, zum Beispiel in religiösen Texten, kommt der Abschnitt 9.11 nach dem Abschnitt 9.8, weshalb die KI ihn möglicherweise als größer ansieht. Sobald sie wussten, warum die KI diesen Fehler machte, stellten die Forscher die Aktivierung der KI im Bereich Bibelverse und dem 11. September ein. Was dazu führte, dass das Modell die richtige Antwort gab, als es erneut gefragt wurde, ob 9,11 (9.11) größer als 9,8 (9.8) ist.

Anzeige
Anzeige

Weitere Anwendung von Sparse-Autoencoder: Bombenbau verhindern

Es gibt auch andere potenzielle Anwendungen für Sparse-Autoencoder. Derzeit ist eine Eingabeaufforderung auf Systemebene in LLMs eingebaut, um mit Situationen umzugehen, in denen Benutzer:innen fragen, wie man eine Bombe baut. Wenn man ChatGPT eine Frage stellt, wird das Modell zunächst heimlich von OpenAI aufgefordert, nicht zu sagen, wie man Bomben baut – oder andere schändliche Dinge tut. Aber es ist für Benutzer:innen leicht, die KI-Modelle mit cleveren Prompts zu überlisten und so Einschränkungen zu umgehen.

Wenn die Schöpfer der Modelle in der Lage wären, herauszufinden, wo in einer KI das Wissen über den Bombenbau (oder andere problematische Inhalte) steckt, können sie diese Knotenpunkte theoretisch dauerhaft abschalten. Dann würde selbst das raffinierteste Prompt-Hacking keine Antwort über den Bau einer Bombe hervorrufen, weil die KI buchstäblich keine Informationen über den Bau einer Bombe in ihrem System hat. Diese Art von Granularität und präziser Kontrolle ist erstrebenswert, aber mit dem derzeitigen Stand der mechanistischen Interpretierbarkeit extrem schwer zu erreichen.

Jede Veränderung eines KI-Modells kann Vor- und Nachteile mit sich bringen

„Eine Einschränkung ist, dass das Steering [Beeinflussung eines Modells durch Anpassung seiner Parameter] einfach nicht so gut funktioniert, und wenn man ein Modell steuert, um etwa Gewalt zu reduzieren, endet es damit, dass es sein Wissen über Kampfsportarten komplett lobotomisiert. Am Steering muss noch viel gefeilt werden“, sagt Lin. Das Wissen über den „Bombenbau“ zum Beispiel ist nicht nur ein einfacher An- und Ausschalter in einem KI-Modell. Höchstwahrscheinlich ist es in mehreren Teilen des Modells eingewoben, und wenn man es ausschalten würde, müsste man wahrscheinlich das Wissen der KI über das Thema Chemie beeinträchtigen. Jede Veränderung kann Vorteile, aber auch erhebliche Nachteile mit sich bringen.

Anzeige
Anzeige

Wenn wir jedoch in der Lage sind, hier endlich tiefer zu graben und klarer in den „Geist“ der KI zu blicken, gäbe es Hoffnung. Mechanistische Interpretierbarkeit könnte ein plausibler Weg zum sogenannten Alignment sein – einem Prozess, der sicherstellt, dass die KI tatsächlich das tut, was wir von ihr erwarten.

Dieser Artikel stammt von Scott J Mulligan. Er ist KI-Reporter bei der US-amerikanischen Ausgabe von MIT Technology Review und schreibt über die Bereiche Politik, Regulierung und die technischen Grundlagen.
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige