KI-Training am Limit: Warum minderwertige Daten die Zukunft der Künstlichen Intelligenz gefährden
Damit eine KI nutzbringend trainiert werden kann, benötigt sie neue und vor allem qualitativ hochwertige Daten. Dazu wurden in der Vergangenheit frei im Internet zugängliche Magazine und Fachpublikationen verwendet.
KI-Training: Alle Quellen nahezu abgegrast
Auch Zeitungs- und Wissenschaftsarchive oder Communities wie Reddit und Stack Overflow werden genutzt. Die größeren KI-Unternehmen haben bereits Verträge mit Publishern wie Springer, Reuters oder der New York Times geschlossen, um an deren Inhalte zu gelangen.
Das Problem ist, dass die Inhalte viel zu langsam wachsen, um den Trainingshunger der rasch besser werdenden KI-Modelle zu stillen. Überraschen kann das indes nicht. Die Warnung vor einer Knappheit an Trainingsdaten wurde von Expert:innen schon vor zwei Jahren geäußert.
Damals hatten sie vorher gesagt, dass spätestens um das Jahr 2026 ebendiese Knappheit eintreten dürfte. Denn spätestens zu diesem Zeitpunkt seien alle Quellen für Qualitätsdaten erschlossen und genutzt.
Aus der Not heraus: KI-Anbieter nehmen, was sie bekommen können
Andere Expert:innen bestätigten zwar diese Vorhersage, gingen aber davon aus, dass die vorhandenen Daten möglicherweise noch zwei Jahre länger halten würden. Eine Alternative besteht nun darin, auch als qualitativ minderwertig geltende Quellen für das Training zu benutzen.
So macht es etwa Facebook-Mutter Meta. Sie nutzt die auf den eigenen Plattformen Facebook und Instagram geposteten Beiträge für das Training ihrer Llama-Modelle.
Andere KI-Anbieter gehen mit einer besonderen Finesse vor. Sie setzen auf sogenannte synthetische Daten. Das sind Trainingsdaten, die ihrerseits von einer KI generiert wurden.
So macht es etwa das KI-Start-up Anthropic seit der Opus-Version seiner Modellreihe Claude. Auch der ChatGPT-Hersteller OpenAI soll bei seinem neuen Sprachmodell Orion so vorgehen.
Minderwertige Inhalte erzeugen keine qualitativen Ausgaben
Solche Methoden sind unter KI-Forscher:innen nicht unumstritten. Gerade Social-Media-Posts gelten als besonders minderwertig und könnten sich auf das Niveau der durch die KI ausgegebenen Inhalte negativ auswirken.
Synthetische Daten bergen mehrere Probleme. Zum einen bleibt es unklar, wie sich eine KI nach vorn gerichtet trainieren soll, wenn sie nur Daten dafür zur Verfügung hat, die sie selbst erstellt hat. Das klingt nach dem bekanntlich nicht möglichen Perpetuum Mobile.
Außerdem könnten die so trainierten KI-Modelle beginnen, sich selbst zu beschränken, indem sie die selbst generierten Trainingsdaten imitieren. Damit würden sie sich Ihren eigenen Walled Garden erschaffen.
Synthetische Daten können die KI unbrauchbar machen
Es könnte aber auch noch schlimmer kommen. Wie Experimente etwa an der kalifornischen Stanford-Universität gezeigt haben, kann das Training mit synthetischen Daten sowohl zu Fehlern als auch mindestens zu Artefakten in den KI-Antworten führen. Wird dann auf der Basis solcher Daten weiter trainiert, kann es zu vollkommen unbrauchbaren Ausgaben kommen. Dieser Effekt wird in der Forschung als digitaler Rinderwahnsinn bezeichnet.
Bei OpenAI wurde eigens ein neues Team gegründet, um dem Problem zu begegnen. Das soll sich ausschließlich mit der Frage befassen, wie es gelingen kann, zukünftige Modelle trotz der Knappheit an Trainingsdaten zu verbessern. Es bleibt spannend.
Das wussten schon die Filmemacher in den 80er Jahren: Nr. 5 braucht immer „mehr Input“.