Keiner weiß, wie Large Language Models wirklich ticken – und das ist ein Problem
Für Belkin sind große Sprachmodelle also ein ganz neues Rätsel. Diese Modelle basieren auf Transformatoren, einer Art von neuronalen Netzen, die gut darin sind, Sequenzen von Daten, wie Wörter in Sätzen, zu verarbeiten.
In Transformatoren steckt eine Menge Komplexität, sagt Belkin. Aber er glaubt, dass sie im Grunde genommen mehr oder weniger dasselbe tun wie ein viel besser verstandenes statistisches Konstrukt, die so genannte Markow-Kette, die das nächste Element in einer Sequenz auf der Grundlage dessen vorhersagt, was vorher geschah. Aber das reicht nicht aus, um all das zu erklären, was große Sprachmodelle leisten können. „Bis vor Kurzem dachten wir, dass so etwas gar nicht funktionieren sollte“, sagt Belkin. „Das bedeutet, dass etwas Grundlegendes fehlte. Es zeigt eine Lücke in unserem Verständnis der Welt auf.“
Belkin geht sogar noch weiter. Er glaubt, dass es in Sprache ein verborgenes mathematisches Muster geben könnte, das große Sprachmodelle irgendwie ausnutzen können: „Das ist reine Spekulation, aber warum nicht?“
„Die Tatsache, dass diese KI-Systeme Sprache modellieren, ist wahrscheinlich eine der größten Entdeckungen unserer Geschichte“, sagt er. „Dass man eine Sprache lernen kann, indem man einfach das nächste Wort mithilfe einer Markow-Kette vorhersagt – das war einfach schockierend für mich.“
Erstmal klein anfangen
Die Forscher versuchen inzwischen, Schritt für Schritt vorzugehen. Da große Modelle zu komplex sind, um sie wirklich zu untersuchen, experimentieren Belkin, Barak, Zhou und andere KI-Wissenschaftlern stattdessen mit kleineren (und älteren) Arten von KI-Systemen, die besser verstanden werden. Wenn man diese Stellvertreter unter verschiedenen Bedingungen und mit verschiedenen Arten von Daten trainiert und beobachtet, was passiert, kann man einen Einblick in die darin ablaufenden Vorgänge gewinnen. Das hilft zwar dabei, neue Theorien aufzustellen, aber es ist nicht immer klar, ob diese Theorien auch für größere Modelle gelten. Schließlich ist es die Komplexität großer Modelle, die viele der seltsamen Verhaltensweisen hervorbringen, die nicht verstanden werden.
Ist eine allgemeine Theorie für das Deep Learning in Sicht? David Hsu, Informatiker an der Columbia University und einer der Mitautoren von Belkins Arbeit über den Double Descent, erwartet nicht, dass wir alle Antworten in absehbarer Zeit finden werden. „Wir haben jetzt zwar eine etwas bessere Intuition. Aber können wir damit wirklich erklären, warum neuronale Netze diese Art von unerwartetem Verhalten zeigen? Davon sind wir noch weit entfernt.“
Im Jahr 2016 veröffentlichten Chiyuan Zhang vom MIT und seine Kollegen von Google Brain eine einflussreiche Arbeit mit dem Titel „Understanding Deep Learning Requires Rethinking Generalization“. Um Deep Learning zu verstehen, müssen wir Generalisierung neu denken.
Das neue Denken hört nicht auf
Im Jahr 2021, fünf Jahre später, veröffentlichten sie das Papier dann erneut und nannten es einfach nur „Understanding Deep Learning (Still) Requires Rethinking Generalization“ – das neue Denken hört nicht auf. Und im Jahr 2024 gleich wieder? „Dazu würde ich irgendwie ja und nein sagen“, so Zhang. „Es hat in letzter Zeit viele Fortschritte gegeben, obwohl wahrscheinlich viel mehr Fragen auftauchten als gelöst wurden.“