Keiner weiß, wie Large Language Models wirklich ticken – und das ist ein Problem
Das Problem ist, dass KI in der Ära der großen Sprachmodelle der Statistik aus dem Lehrbuch zu trotzen scheint. Die leistungsfähigsten Modelle sind heute gigantisch groß, mit bis zu einer Billion Parametern (die Werte in einem Modell, die während des Trainings angepasst werden). Statistik besagt jedoch, dass sich die Leistung von Modellen mit zunehmender Größe zunächst verbessern und dann verschlechtern sollte. Der Grund dafür ist die so genannte Überanpassung, Overfitting genannt.
Wenn ein Modell auf einen Datensatz trainiert wird, versucht es stets, diese Daten an ein Muster anzupassen. Man stelle sich eine Reihe von Datenpunkten in einem Diagramm vor. Ein Muster, das zu den Daten passt, kann in diesem Diagramm als eine Linie dargestellt werden, die durch alle Punkte verläuft. Beim Trainieren eines Modells geht es darum, eine Linie zu finden, die zu den Trainingsdaten (den Punkten im Diagramm), aber auch zu neuen Daten (den neuen Punkten) passt.
Das Problem mit der Überanpassung
Eine gerade Linie ist ein Muster, aber sie ist wahrscheinlich nicht sehr genau, da sie einige Punkte nicht erfassen wird. Eine unruhige Linie, die jeden Punkt verbindet, erhält zwar die volle Punktzahl für die jeweiligen Trainingsdaten, kann aber nicht verallgemeinert werden. In diesem Fall spricht man von einer Überanpassung des Modells an die Daten.
Die klassische Statistik besagt, dass ein Modell umso anfälliger für eine Überanpassung ist, je größer es wird. Das liegt daran, dass es für ein Modell mit mehr Parametern, mit denen es spielen kann, einfacher wird, auf unruhige Linien zu stoßen, die jeden Punkt miteinander verbinden. Das deutet darauf hin, dass es einen „Sweet Spot“ zwischen Unter- und Überanpassung gibt, den ein Modell erst finden muss, wenn es verallgemeinern soll. Doch genau das ist bei großen Modellen nicht der Fall. Das bekannteste Beispiel dafür ist ein Phänomen, das „Double Descent“ genannt wird.
Die Leistung eines Modells wird häufig anhand der Anzahl der Fehler ermittelt, die es macht: Wenn die Leistung steigt, sinkt die Fehlerquote. Jahrzehntelang ging man davon aus, dass die Fehlerquote erst sinkt und dann wieder ansteigt, wenn die Modelle größer werden: Man stellte sich eine U-förmige Kurve vor, bei der der Sweet Spot für die Verallgemeinerung am niedrigsten Punkt liegt.
Im Jahr 2018 fanden Belkin und seine Kollegen jedoch heraus, dass die Fehlerquote bei bestimmten Modellen mit zunehmender Größe erst sinkt, dann steigt – und dann wieder sinkt (eine doppelt abfallende oder W-förmige Kurve). Mit anderen Worten: Große Modelle schossen irgendwie über den Sweet Spot hinaus und konnten das Problem der Überanpassung überwinden, indem sie mit zunehmender Größe immer besser wurden.
Dieses Problem kommt häufiger vor
Ein Jahr später wurde Barak Mitverfasser einer Arbeit, die zeigte, dass das Phänomen des Double Descent häufiger aufritt als gedacht. Es tritt nicht nur auf, wenn Modelle größer werden, sondern auch bei Modellen mit großen Mengen an Trainingsdaten oder bei Modellen, die länger trainiert werden. Dieses Verhalten, das als „Benign Overfitting“ bezeichnet wird, ist noch immer nicht vollständig verstanden. Es wirft grundlegende Fragen darüber auf, wie Modelle trainiert werden sollten, um das Beste aus ihnen herauszuholen.
Die Forscher haben Versionen dessen skizziert, was hier ihrer Meinung nach vor sich geht. Belkin glaubt, dass eine Art Occam’scher-Rasiermesser-Effekt im Spiel ist: Das einfachste Muster, das zu den Daten passt – die glatteste Kurve zwischen den Punkten – ist oft dasjenige, das am besten verallgemeinert. Der Grund dafür, dass sich größere Modelle länger verbessern können, als es den Anschein hat, könnte darin liegen, dass größere Modelle mit größerer Wahrscheinlichkeit auf die richtige Kurve stoßen als kleinere: Mehr Parameter bedeuten mehr mögliche Kurven, die man durchprobieren kann, nachdem man die unruhigsten verworfen hat.
„Unsere Theorie schien die Grundlagen zu erklären, warum es funktioniert“, sagt Belkin. „Und dann haben die Leute plötzlich Modelle gebaut, die 100 Sprachen ausgeben konnten – und es hieß dann: Okay, wir verstehen gar nichts mehr.“ Er lacht. „Es stellte sich heraus, dass wir nicht einmal an der Oberfläche gekratzt hatten.“