Keiner weiß, wie Large Language Models wirklich ticken – und das ist ein Problem
Inzwischen ringen die Forscher sogar mit ihren grundlegendsten Beobachtungen in Sachen KI. Im Dezember präsentierten Langosco von der Uni Cambridge und Kollegen auf der führenden Konferenz „NeurIPS“ ein Paper, in dem sie behaupteten, dass Grokking und Double Descent tatsächlich Aspekte desselben Phänomens sind. „Wenn man oberflächlich draufguckt, sehen sie sich ziemlich ähnlich“, sagt Langosco. Er ist der Meinung, dass eine Erklärung für das, was vor sich geht, beide Aspekte berücksichtigen sollte.
Auf der gleichen Konferenz argumentierte Alicia Curth, die an der Universität Cambridge Statistik untersucht, dass Double Descent in Wirklichkeit wahrscheinlich eine Illusion ist. „Es hat mir überhaupt nicht gefallen, dass modernes Maschinelles Lernen eine Art Magie sein soll, die sich über alle Gesetze hinwegsetzt, die wir bisher aufgestellt hatten“, sagt sie. Curth und ihr Team argumentieren, dass das Phänomen des Double Descents – bei dem die Modelle wie gesagt erst besser, dann schlechter und dann wieder besser zu werden scheinen, wenn sie größer werden – durch die Art und Weise entsteht, wie die Komplexität der Modelle gemessen wurde.
Das richtige Maß
Belkin und Kollegen verwendeten die Modellgröße – also die Anzahl der Parameter – als Maß für die Komplexität. Curth und ihre Kollegen fanden jedoch heraus, dass die Anzahl der Parameter möglicherweise kein gutes Maß dafür ist, da das Hinzufügen von Parametern ein Modell manchmal komplexer und manchmal sogar weniger komplex macht. Es komme darauf an, um welche Werte es sich handelt, wie sie beim Training verwendet werden und wie sie mit den anderen interagieren – vieles davon bleibt im Modell verborgen. „Unsere Erkenntnis war, dass nicht alle Modellparameter gleich sind“, sagt Curth.
Kurz gesagt, wenn man ein anderes Maß für die Komplexität verwendet, können sehr große Sprachmodelle sehr wohl der klassischen Statistik entsprechen. Das soll nicht heißen, dass wir eine Menge darüber wüssten, was passiert, wenn Modelle größer werden, sagt Curth. Aber wir haben immerhin alle mathematischen Grundlagen, die wir brauchen, um sie zu erklären.
Das größte Geheimnis unserer Zeit?
Die Sinnhaftigkeit solcher Debatten lässt sich hinterfragen. Warum ist es wichtig, dass KI-Modelle durch klassische Statistik untermauert werden? Eine Antwort ist, dass ein besseres theoretisches Verständnis helfen kann, noch bessere KI-Systeme zu entwickeln oder sie wenigstens effizienter zu machen. Im Moment sind die Fortschritte zwar schnell, aber quasi unvorhersehbar. Vieles, was OpenAIs GPT-4 kann, war selbst für seine Entwickler überraschend. Die Forscher streiten sich immer noch darüber, was es wirklich leisten kann und was nicht. „Ohne eine Art grundlegender Theorie ist es sehr schwer, eine Vorstellung davon zu haben, was wir von den Modellen erwarten können“, sagt Belkin.
Forscherkollege Barak stimmt dem zu. „Selbst wenn wir die Modelle haben, ist es selbst im Nachhinein nicht einfach, genau darzulegen, warum bestimmte Fähigkeiten zu einem bestimmten Zeitpunkt entstanden sind“, sagt er. Dabei geht es nicht nur um die Verwaltung eines Fortschritts, sondern auch um die Antizipation von Risiken. Viele der Forscher, die an einer allgemeinen Theorie des Deep Learnings arbeiten, sind durch Fragen der Sicherheit motiviert. „Wir wissen nicht, welche Fähigkeiten GPT-5 haben wird, bis wir es trainiert und getestet haben“, sagt Langosco. „Im Moment mag das ein mittelgroßes Problem sein, aber in Zukunft wird es zu einem wirklich großen Problem werden, wenn die Modelle immer leistungsfähiger sind.“
Barak arbeitet deshalb im Superalignment-Team von OpenAI, das vom Chefwissenschaftler des Unternehmens, Ilya Sutskever, gegründet wurde, um herauszufinden, wie man eine hypothetische Superintelligenz davon abhalten kann, zur Gefahr zu werden. „Ich bin sehr daran interessiert, eine Garantie zu erhalten, dass das nicht passiert“, sagt er. „Wenn jemand erstaunliche Dinge tun kann, sie aber nicht wirklich kontrolliert, dann ist das nicht so toll. Was nützt ein Auto, das 300 Meilen pro Stunde fahren kann, aber ein wackeliges Lenkrad hat?“
Hinter all dem verbirgt sich aber auch einfach eine große wissenschaftliche Herausforderung. „Die Frage nach der Intelligenz ist definitiv eines der großen Rätsel unserer Zeit“, sagt Barak. „Wir sind eine sehr junge Wissenschaft.“ Die Fragen, die ihn in diesem Monat am meisten interessierten, seien im nächsten wieder andere. „Wir sind noch dabei, die Dinge zu entdecken. Wir müssen noch viel experimentieren und uns dabei überraschen lassen.“