Anzeige
Anzeige
News

KI-Training am Limit: Warum minderwertige Daten die Zukunft der Künstlichen Intelligenz gefährden

Die Entwicklung war absehbar. Neue KI-Modelle benötigen frische Daten für ihr Training. Aber diese Daten wachsen weniger schnell als die Fortschritte der KI-Modelle.

Von Dieter Petereit
2 Min.
Artikel merken
Anzeige
Anzeige

 

 

 

 

Damit eine KI nutzbringend trainiert werden kann, benötigt sie neue und vor allem qualitativ hochwertige Daten. Dazu wurden in der Vergangenheit frei im Internet zugängliche Magazine und Fachpublikationen verwendet.

Anzeige
Anzeige

KI-Training: Alle Quellen nahezu abgegrast

Auch Zeitungs- und Wissenschaftsarchive oder Communities wie Reddit und Stack Overflow werden genutzt. Die größeren KI-Unternehmen haben bereits Verträge mit Publishern wie Springer, Reuters oder der New York Times geschlossen, um an deren Inhalte zu gelangen.

Das Problem ist, dass die Inhalte viel zu langsam wachsen, um den Trainingshunger der rasch besser werdenden KI-Modelle zu stillen. Überraschen kann das indes nicht. Die Warnung vor einer Knappheit an Trainingsdaten wurde von Expert:innen schon vor zwei Jahren geäußert.

Anzeige
Anzeige

Damals hatten sie vorher gesagt, dass spätestens um das Jahr 2026 ebendiese Knappheit eintreten dürfte. Denn spätestens zu diesem Zeitpunkt seien alle Quellen für Qualitätsdaten erschlossen und genutzt.

Aus der Not heraus: KI-Anbieter nehmen, was sie bekommen können

Andere Expert:innen bestätigten zwar diese Vorhersage, gingen aber davon aus, dass die vorhandenen Daten möglicherweise noch zwei Jahre länger halten würden. Eine Alternative besteht nun darin, auch als qualitativ minderwertig geltende Quellen für das Training zu benutzen.

Anzeige
Anzeige

So macht es etwa Facebook-Mutter Meta. Sie nutzt die auf den eigenen Plattformen Facebook und Instagram geposteten Beiträge für das Training ihrer Llama-Modelle.

Andere KI-Anbieter gehen mit einer besonderen Finesse vor. Sie setzen auf sogenannte synthetische Daten. Das sind Trainingsdaten, die ihrerseits von einer KI generiert wurden.

Anzeige
Anzeige

So macht es etwa das KI-Start-up Anthropic seit der Opus-Version seiner Modellreihe Claude. Auch der ChatGPT-Hersteller OpenAI soll bei seinem neuen Sprachmodell Orion so vorgehen.

Minderwertige Inhalte erzeugen keine qualitativen Ausgaben

Solche Methoden sind unter KI-Forscher:innen nicht unumstritten. Gerade Social-Media-Posts gelten als besonders minderwertig und könnten sich auf das Niveau der durch die KI ausgegebenen Inhalte negativ auswirken.

Synthetische Daten bergen mehrere Probleme. Zum einen bleibt es unklar, wie sich eine KI nach vorn gerichtet trainieren soll, wenn sie nur Daten dafür zur Verfügung hat, die sie selbst erstellt hat. Das klingt nach dem bekanntlich nicht möglichen Perpetuum Mobile.

Anzeige
Anzeige

Außerdem könnten die so trainierten KI-Modelle beginnen, sich selbst zu beschränken, indem sie die selbst generierten Trainingsdaten imitieren. Damit würden sie sich Ihren eigenen Walled Garden erschaffen.

Synthetische Daten können die KI unbrauchbar machen

Es könnte aber auch noch schlimmer kommen. Wie Experimente etwa an der kalifornischen Stanford-Universität gezeigt haben, kann das Training mit synthetischen Daten sowohl zu Fehlern als auch mindestens zu Artefakten in den KI-Antworten führen. Wird dann auf der Basis solcher Daten weiter trainiert, kann es zu vollkommen unbrauchbaren Ausgaben kommen. Dieser Effekt wird in der Forschung als digitaler Rinderwahnsinn bezeichnet.

Bei OpenAI wurde eigens ein neues Team gegründet, um dem Problem zu begegnen. Das soll sich ausschließlich mit der Frage befassen, wie es gelingen kann, zukünftige Modelle trotz der Knappheit an Trainingsdaten zu verbessern. Es bleibt spannend.

Anzeige
Anzeige

 

 

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare (1)

Community-Richtlinien

Marcus Höting

Das wussten schon die Filmemacher in den 80er Jahren: Nr. 5 braucht immer „mehr Input“.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige