Keiner weiß, wie Large Language Models wirklich ticken – und das ist ein Problem
Vor zwei Jahren versuchten Yuri Burda und Harri Edwards, Forscher beim KI-Konzern OpenAI aus San Francisco, herauszufinden, was nötig wäre, um ein großes Sprachmodell (Large Language Model, LLM) dazu zu bringen, grundlegende Arithmetik zu betreiben. Sie wollten wissen, wie viele Beispiele für die Addition von zwei Zahlen das Modell denn sehen musste, bevor es in der Lage war, zwei beliebige Zahlen in einem Prompt zu addieren. Am Anfang lief alles nicht so toll. Die Modelle merkten sich die Summen zwar, die sie gelernt hatten, konnten aber keine neuen Aufgaben lösen.
Versehentlich ließen Burda und Edwards dann aber einige ihrer Trainingsexperimente viel länger laufen, als sie eigentlich wollten –Tage statt Stunden. Den Modellen wurden die Beispielsummen immer und immer wieder vorgeführt, und zwar weit über den Punkt hinaus, an dem die Forscher üblicherweise aufgegeben hätten. Als Burda und Edwards schließlich zurückkamen, waren sie überrascht, dass das es plötzlich klappte: Sie hatten ein großes Sprachmodell darauf trainiert, zwei Zahlen zu addieren – es hatte nur sehr viel mehr Zeit in Anspruch genommen, als sie erwartet hatten.
Als ob eine Glühlampe angegangen wäre
Die Neugier der beiden Forscher war geweckt und sie taten sich mit weiteren Kollegen zusammen, um das Phänomen näher zu untersuchen. Sie fanden heraus, dass Modelle in bestimmten Fällen eine Aufgabe scheinbar anfangs einfach nicht verstehen, sie dann aber plötzlich beherrschen, als ob da eine Glühlampe über ihrem virtuellen Kopf angegangen wäre. Das Problem: So sollte nach aktueller Lehrmeinung Deep Learning eigentlich nicht funktionieren. Das Verhalten bekam deshalb einen eher lustigen Namen: „Grokking“, zu Deutsch ungefähr: plötzliches Begreifen.
„Das war wirklich interessant“, sagt Hattie Zhou, KI-Forscherin an der Universität von Montreal, die auch im Machine-Learning-Team von Apple tätig ist und die Forschungsarbeit kennt, die uns das Grokking näherbrachte. Daraus ergäben sich viele Fragen: „Können wir jemals sicher sein, dass die Modelle aufgehört haben, etwas zu lernen? Denn vielleicht haben wir sie einfach nicht lange genug trainiert.“
Das merkwürdige Verhalten der großen Sprachmodelle hat die Fantasie der breiteren KI-Forschungs-Community beflügelt. „Viele Leute haben eine Meinung dazu entwickelt“, sagt Lauro Langosco von der Universität Cambridge in Großbritannien. „Aber ich glaube nicht, dass es einen Konsens darüber gibt, was genau hier vor sich geht.“
Mit Grokking zum Ziel
Grokking ist nur eines von mehreren seltsamen Phänomenen, über die sich KI-Forscher seit längerem den Kopf zerbrechen. Insbesondere große Sprachmodelle – aber auch andere KI-Systeme mit vielen Trainingsdaten – scheinen sich auf eine Art und Weise zu verhalten, wie sie laut Lehrmeinung nicht existieren sollte. Das unterstreicht eine bemerkenswerte Tatsache beim Deep Learning, der grundlegenden Technologie hinter dem heutigen KI-Boom: Trotz des durchschlagenden Erfolgs der Chatbots, Bildgeneratoren und Co. weiß niemand wirklich ganz genau, wie – oder warum – sie funktionieren.
„Natürlich sind wir nicht völlig unwissend“, betont Mikhail Belkin, Informatiker an der University of California in San Diego. „Aber unsere theoretische Analyse ist weit von dem entfernt, was diese Modelle leisten können. Warum genau können sie zum Beispiel Sprachen lernen? Selbst ich rätsele darüber.“
Die größten der KI-Systeme sind längst so komplex, dass die Forscher sie eher wie seltsame Naturphänomene untersuchen als wie eine vom Menschen erdachte Technik. Es werden Experimente durchgeführt und versucht, deren Ergebnisse zu erklären. Viele dieser Beobachtungen stehen im Widerspruch zur klassischen Statistik, die bisher die besten Erklärungen für das Verhalten von auf Basis von Wahrscheinlichkeiten arbeitenden Systemen (Predictive Models) geliefert hat.
Eigentlich könnte uns das ja herzlich egal sein, solange die Technik funktioniert. In den letzten Monaten hat Google mit Gemini eine neue Modellfamilie vorgestellt, die deutlich mehr kann und in fast allen Anwendungen des Internetriesen landen soll. OpenAI begeisterte die Massen unterdessen mit dem Text-to-Video-Modell Sora. Währenddessen bemühen sich Unternehmen auf der ganzen Welt, KI für ihre Bedürfnisse zu nutzen. Warum also grübeln?