Anzeige
Anzeige
MIT Technology Review News

Schluss mit der KI-Black-Box: Ein neues Verfahren könnte neuronale Netze verständlicher machen

Selbst für die Entwickler ist es schwer zu sagen, wie neuronale Netze zu ihren Ergebnissen kommen. Ein neues Verfahren könnte das ändern – und mehr Einblicke in Arbeitsweise künstlicher Intelligenz geben.

Von MIT Technology Review Online
5 Min.
Artikel merken
Anzeige
Anzeige

Die Zusammenarbeit von künstlichen Neuronen zu verstehen, stellt Forscher:innen vor Herausforderungen. (Symbolbild: Sergey Nivens / Shutterstock)

Künstliche Neuronen sind die grundlegenden Bausteine tiefer neuronaler Netze. Ihre Aufgabe ist es – wie bei den biologischen Neuronen in unserem Gehirn – Informationen aufzunehmen, zu verarbeiten und gegebenenfalls weiterzuleiten. Diese neuronalen Netze verleihen der modernen künstlichen Intelligenz zwar ihre Leistungsfähigkeit, haben aber einen Nachteil: Sie sind größtenteils undurchschaubar.

Anzeige
Anzeige

Bestehende künstliche Neuronen, die in großen Sprachmodellen wie GPT4 verwendet werden, funktionieren, indem sie eine große Anzahl von Eingaben aufnehmen, diese addieren und die Summe mithilfe einer anderen mathematischen Operation innerhalb des Neuron in eine Ausgabe umwandeln. Kombinationen solcher Neuronen bilden neuronale Netze, und ihre kombinierte Arbeitsweise kann schwer zu entschlüsseln sein.

Inzwischen gibt es aber einen neuen Ansatz, die künstlichen Neuronen zu kombinieren. Der Unterschied besteht darin, dass die Verarbeitung und Summierung der Eingaben zum Teil aus dem Neuron herausgelöst wird, ohne dass eine zusätzliche versteckte Operation erforderlich ist. Netze aus solchen Neuronen werden Kolmogorow-Arnold-Netze (KAN) genannt, nach den russischen Mathematikern, die sie inspiriert haben.

Anzeige
Anzeige

Neuronale Netze besser verstehen

Das Verfahren, das von einer Gruppe unter der Leitung von Forschern am MIT im Detail untersucht wurde, könnte mehr Transparenz in der Entwicklung von KI-Modellen schaffen. Deren Entscheidungen ließen sich besser überprüfen und sogar auf Verzerrungen hin untersuchen. Vorläufige Ergebnisse deuten auch darauf hin, dass die Genauigkeit von KANs mit zunehmender Größe schneller zunimmt als bei Netzen, die aus herkömmlichen Neuronen bestehen.

„Das ist eine interessante Arbeit“, sagt Andrew Wilson, der an der New York University die Grundlagen des maschinellen Lernens untersucht. „Es ist schön, dass man versucht, das Design dieser [Netzwerke] grundlegend zu überdenken.“

Anzeige
Anzeige

Die grundlegenden Elemente der KANs entstanden bereits in den Neunziger Jahren. Seitdem gab es immer wieder einfache Versionen solcher Netze. Der jetzige Durchbruch entstand, als ein Team von Forscher:innen am MIT, Caltech und anderen Instituten versucht haben, das Innenleben von künstlichen neuronalen Standardnetzwerken besser zu verstehen.

Das Team hat KANs weiterentwickelt und gezeigt, wie man sie größer gestaltet, sie trainiert, und wie ihre Problemlösungsfähigkeit von Menschen interpretiert werden könnte. „Wir haben diese Idee quasi neu belebt“, sagt das Teammitglied Ziming Liu, Doktorand im Labor von Max Tegmark am MIT.

Anzeige
Anzeige

Die Forschung zieht Aufmerksamkeit auf sich. Auf GitHub gibt es bereits Projekte, die zeigen, wie KANs für unzählige Anwendungen eingesetzt werden können, etwa zur Bilderkennung und in der Strömungslehre.

Was künstliche Neuronen verarbeiten

Heute enthalten fast alle Arten von künstlicher Intelligenz, einschließlich derer, die zum Aufbau großer Sprachmodelle und Bilderkennungssysteme verwendet werden, Teilnetze, die als mehrlagige Perzeptronen (MLP) bekannt sind. In einem MLP sind die künstlichen Neuronen in dichten, miteinander verbundenen „Schichten“ angeordnet. Jedes Neuron verfügt über eine so genannte „Aktivierungsfunktion“ – eine mathematische Operation, die eine Reihe von Eingaben aufnimmt und sie in einer bestimmten Weise in eine Ausgabe umwandelt.

In einem MLP erhält jedes künstliche Neuron Eingaben von allen Neuronen in der vorherigen Schicht und multipliziert jede Eingabe mit einem entsprechenden „Gewichtung“ (Weight), also einer Zahl, die die Wichtigkeit dieser Eingabe angibt. Diese gewichteten Eingaben werden addiert und der Aktivierungsfunktion im Neuron zugeführt, um eine Ausgabe zu erzeugen, die dann an die Neuronen in der nächsten Schicht weitergegeben wird. Ein MLP lernt zum Beispiel, zwischen Bildern von Katzen und Hunden zu unterscheiden, indem es die richtigen Werte für die Gewichtung der Eingaben für alle Neuronen wählt. Entscheidend ist, dass die Aktivierungsfunktion fest ist und sich während des Trainings nicht ändert.

Anzeige
Anzeige

Nach dem Training fungieren alle Neuronen eines MLP und ihre Verbindungen zusammengenommen im Wesentlichen als eine weitere Funktion, die eine Eingabe (zum Beispiel Zehntausende von Pixeln in einem Bild) aufnimmt und die gewünschte Ausgabe erzeugt (zum Beispiel 0 für Katze und 1 für Hund). Nachzuvollziehen, wie diese Funktion aussieht, also ihre mathematische Form, ist wichtig, um zu verstehen, warum sie eine bestimmte Ausgabe erzeugt. Warum stuft sie beispielsweise eine Person als kreditwürdig ein, wenn sie Informationen über ihren finanziellen Status erhält? Aber MLPs gleichen häufig einer Black Box; ein Reverse-Engineering des Netzes ist bei komplexen Aufgaben wie der Bilderkennung nahezu unmöglich.

Selbst als Ziming Liu und Kollegen versuchten, ein MLP für einfachere Aufgaben mit extra für die Aufgabe erzeugten Daten zurückzuentwickeln, hatten sie Schwierigkeiten. „Wenn wir nicht einmal diese synthetischen Datensätze von neuronalen Netzen interpretieren können, dann ist es hoffnungslos, mit realen Datensätzen umzugehen“, sagt Liu. „Es war wirklich schwer, diese neuronalen Netze zu verstehen. Also haben wir uns dazu entschlossen, ihre Architektur ändern.“

Eine neue Aktivierungsfunktion in KANs

Die wichtigste Änderung bestand darin, die feste Aktivierungsfunktion zu entfernen und eine viel einfachere, erlernbare Funktion einzuführen, um jede eingehende Eingabe zu transformieren, bevor sie in das Neuron gelangt.

Anzeige
Anzeige

Im Gegensatz zur Aktivierungsfunktion in einem MLP-Neuron, die zahlreiche Eingaben aufnimmt, nimmt jede einfache Funktion außerhalb des KAN-Neurons eine Zahl auf und gibt eine andere Zahl aus. Während des Trainings lernt das Kolmogorow-Arnold-Netz nun nicht mehr die einzelnen Gewichte, wie bei einem MLP, sondern nur noch, wie es die einzelnen einfachen Funktionen darstellen soll. In einer Arbeit, die dieses Jahr als Preprint-Paper veröffentlicht wurde, zeigten Liu und Kollegen, dass diese einfachen Funktionen außerhalb der Neuronen viel einfacher zu interpretieren sind. Somit ist es möglich, die mathematische Form der Funktion zu rekonstruieren, die vom gesamten KAN gelernt wird.

Das Team hat die Interpretierbarkeit von KANs jedoch bislang nur an einfachen, synthetischen Datensätzen getestet, nicht aber an realen Problemen, wie der Bilderkennung, die komplizierter sind. „Wir stoßen langsam an die Grenzen“, sagt Liu, „die Interpretierbarkeit ist anspruchsvoll.“ Liu und Kollegen arbeiten nicht als Einzige an der Black-Box-Thematik. Der finnische KI-Pionier Kary Främling von der Universität Umeå geht das Problem ebenfalls an. Främling setzt auf die sogenannte CIU-Methode (Contextual Importance and Utility Approach), wobei die Funktionsweise von KI-Modellen erkannt werden soll, indem geschaut wird, wie deren Outputs in Abhängigkeit von bestimmten Eingaben variieren.

Lässt sich der neue Ansatz ausweiten?

Liu und Kollegen haben auch gezeigt, dass KANs mit zunehmender Größe schneller genauer werden als MLPs. Das Team wies dies sowohl theoretisch als auch empirisch für wissenschaftsbezogene Aufgaben wie das Lernen der Annäherung von Funktionen, die für die Physik relevant sind. „Es ist noch unklar, ob sich diese Beobachtung auf Standardaufgaben des maschinellen Lernens ausweiten lässt, aber zumindest für wissenschaftsbezogene Aufgaben scheint sie vielversprechend zu sein“, sagt Liu.

Anzeige
Anzeige

Der Wissenschaftler räumt aber auch einen wichtigen Nachteil von KANs ein: Das Training eines KANs erfordert mehr Zeit und Rechenleistung als das eines MLP. „Dies schränkt die Anwendungseffizienz von KANs bei großen Datensätzen und komplexen Aufgaben ein“, sagt Di Zhang von der Xi’an Jiaotong-Liverpool University in Suzhou, China. Möglicherweise könnten hier allerdings effizientere Algorithmen und Hardwarebeschleuniger helfen.

Der Text stammt von Anil Ananthaswamy. Er ist Wissenschaftsjournalist und schreibt über Themen aus dem Bereich Physik, Neurowissenschaften und Machine Learning.

 

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige