Was passiert, wenn Sprachmodelle mit Texten von Sprachmodellen trainiert werden?
Garbage in, garbage out – böse formuliert ließe sich so ein neues Paper zusammenfassen, dass Forschende aus Kanada und Großbritannien jetzt in Nature veröffentlicht haben. Doch natürlich steckt mehr dahinter: Ilia Shumailov und seine Kollegen zeigten darin, dass ein großes Sprachmodell, das mit synthetischen Daten trainiert wird, die es selbst produziert wird, immer schlechteren Output liefert. Und nach ein paar Durchläufen nur noch stammelt – es kollabiert.
Die Forschenden führten mit dem OPT-125m-Sprachmodell von Meta ein so genanntes Finetuning mit dem wikitext2-Datensatz durch. Mit diesem Modell produzierten sie einen neuen Datensatz für die nächste Feinabstimmung – und so weiter über neun Generationen hinweg. Nach zehn Durchläufen konnte das Modell keinen sinnvollen Output mehr erzeugen.
Warum ist das bedeutsam?
Dieses Ergebnis ist mehr als eine akademische Fingerübung. Denn zum einen scheint es die bereits seit einiger Zeit immer wieder kursierenden Vermutungen zu bestätigen, dass große Sprachmodelle seit ihrer Markteinführung schlechter geworden sind – obwohl sie mit aktuelleren Daten nachtrainiert wurden.
Zum anderen aber greift das Paper ein zentrales Problem bei der Weiterentwicklung großer Sprachmodelle auf: den Datenhunger von LLMs. Weil immer mehr größere Modelle immer mehr Trainingsdaten brauchen, könnte bereits 2026 der gesamte von Menschen produzierte Textkörper nicht mehr ausreichen, um die nächste Generation großer Sprachmodelle zu trainieren. Für das Training – und vor allem auch das Finetuning – großer Sprachmodelle werden daher schon jetzt immer häufiger synthetische Daten eingesetzt, die wiederum von anderen großen Sprachmodellen produziert werden.
Das Ende ist also nahe?
Heißt das nun, dass die zur Zeit existierenden großen Sprachmodelle das Beste sind, das wir bekommen können, und alle nachfolgenden Modelle zwangsläufig immer schlechter werden?
Zum Glück ist die Datenlage nicht ganz so eindeutig, denn die Studie von Shumailov und seine Kolleg:innen hat zwei Schwächen: Erstens haben sie, weil das viel zu teuer und aufwendig gewesen wäre, ihr Modell nicht von Grund auf trainiert, sondern nur feinabgestimmt. Auf Nachfrage von TR erklärte Shumailov allerdings, diese beiden Prozesse seien ähnlich, und die zugrunde liegende Theorie des Modellzusammenbruchs sei „sehr allgemein“. Aus dieser Theorie könne man ableiten, dass „ein Zusammenbruch unvermeidlich“ sei. „Das ist nur eine Frage der Wiederholungen“. Gezeigt haben die Forschenden das in ihrem Paper aber nicht.
Außerdem widersprechen die Ergebnisse der Veröffentlichung von einer Reihe sehr mächtiger, kleiner Sprachmodelle wie Alpaca oder Phi-3, die deswegen so kompakt sind, weil sie mit synthetischen Daten trainiert wurden. Das lässt sich nur dadurch erklären, dass Shumailov und seine Kolleg:innen ihre synthetisch erzeugten Traningsdaten nicht weiter bearbeitet und gefiltert haben – was jedoch bei dieser Vorgehensweise ansonsten üblich ist.
Stattdessen schlagen die Forschenden vor, in synthetisch erzeugten Traningsdaten immer mindestens zehn Prozent menschliche Ursprungsdaten zu mischen. Allerdings müssten die Daten dann über eine Art Label (menschlich, KI) verfügen, das auch im Training beibehalten werden müsste.