Anzeige
Anzeige
Anzeige
Anzeige
MIT Technology Review Analyse
Verpasse keine News mehr!

Keiner weiß, wie Large Language Models wirklich ticken – und das ist ein Problem

Von MIT Technology Review Online
Seite 3 / 5
Anzeige
Anzeige

Das Problem ist, dass KI in der Ära der großen Sprachmodelle der Statistik aus dem Lehrbuch zu trotzen scheint. Die leistungsfähigsten Modelle sind heute gigantisch groß, mit bis zu einer Billion Parametern (die Werte in einem Modell, die während des Trainings angepasst werden). Statistik besagt jedoch, dass sich die Leistung von Modellen mit zunehmender Größe zunächst verbessern und dann verschlechtern sollte. Der Grund dafür ist die so genannte Überanpassung, Overfitting genannt.

Anzeige
Anzeige

Wenn ein Modell auf einen Datensatz trainiert wird, versucht es stets, diese Daten an ein Muster anzupassen. Man stelle sich eine Reihe von Datenpunkten in einem Diagramm vor. Ein Muster, das zu den Daten passt, kann in diesem Diagramm als eine Linie dargestellt werden, die durch alle Punkte verläuft. Beim Trainieren eines Modells geht es darum, eine Linie zu finden, die zu den Trainingsdaten (den Punkten im Diagramm), aber auch zu neuen Daten (den neuen Punkten) passt.

Das Problem mit der Überanpassung

Eine gerade Linie ist ein Muster, aber sie ist wahrscheinlich nicht sehr genau, da sie einige Punkte nicht erfassen wird. Eine unruhige Linie, die jeden Punkt verbindet, erhält zwar die volle Punktzahl für die jeweiligen Trainingsdaten, kann aber nicht verallgemeinert werden. In diesem Fall spricht man von einer Überanpassung des Modells an die Daten.

Anzeige
Anzeige

Die klassische Statistik besagt, dass ein Modell umso anfälliger für eine Überanpassung ist, je größer es wird. Das liegt daran, dass es für ein Modell mit mehr Parametern, mit denen es spielen kann, einfacher wird, auf unruhige Linien zu stoßen, die jeden Punkt miteinander verbinden. Das deutet darauf hin, dass es einen „Sweet Spot“ zwischen Unter- und Überanpassung gibt, den ein Modell erst finden muss, wenn es verallgemeinern soll. Doch genau das ist bei großen Modellen nicht der Fall. Das bekannteste Beispiel dafür ist ein Phänomen, das „Double Descent“ genannt wird.

Die Leistung eines Modells wird häufig anhand der Anzahl der Fehler ermittelt, die es macht: Wenn die Leistung steigt, sinkt die Fehlerquote. Jahrzehntelang ging man davon aus, dass die Fehlerquote erst sinkt und dann wieder ansteigt, wenn die Modelle größer werden: Man stellte sich eine U-förmige Kurve vor, bei der der Sweet Spot für die Verallgemeinerung am niedrigsten Punkt liegt.

Anzeige
Anzeige

Im Jahr 2018 fanden Belkin und seine Kollegen jedoch heraus, dass die Fehlerquote bei bestimmten Modellen mit zunehmender Größe erst sinkt, dann steigt – und dann wieder sinkt (eine doppelt abfallende oder W-förmige Kurve). Mit anderen Worten: Große Modelle schossen irgendwie über den Sweet Spot hinaus und konnten das Problem der Überanpassung überwinden, indem sie mit zunehmender Größe immer besser wurden.

Dieses Problem kommt häufiger vor

Ein Jahr später wurde Barak Mitverfasser einer Arbeit, die zeigte, dass das Phänomen des Double Descent häufiger aufritt als gedacht. Es tritt nicht nur auf, wenn Modelle größer werden, sondern auch bei Modellen mit großen Mengen an Trainingsdaten oder bei Modellen, die länger trainiert werden. Dieses Verhalten, das als „Benign Overfitting“ bezeichnet wird, ist noch immer nicht vollständig verstanden. Es wirft grundlegende Fragen darüber auf, wie Modelle trainiert werden sollten, um das Beste aus ihnen herauszuholen.

Anzeige
Anzeige

Die Forscher haben Versionen dessen skizziert, was hier ihrer Meinung nach vor sich geht. Belkin glaubt, dass eine Art Occam’scher-Rasiermesser-Effekt im Spiel ist: Das einfachste Muster, das zu den Daten passt – die glatteste Kurve zwischen den Punkten – ist oft dasjenige, das am besten verallgemeinert. Der Grund dafür, dass sich größere Modelle länger verbessern können, als es den Anschein hat, könnte darin liegen, dass größere Modelle mit größerer Wahrscheinlichkeit auf die richtige Kurve stoßen als kleinere: Mehr Parameter bedeuten mehr mögliche Kurven, die man durchprobieren kann, nachdem man die unruhigsten verworfen hat.

„Unsere Theorie schien die Grundlagen zu erklären, warum es funktioniert“, sagt Belkin. „Und dann haben die Leute plötzlich Modelle gebaut, die 100 Sprachen ausgeben konnten – und es hieß dann: Okay, wir verstehen gar nichts mehr.“ Er lacht. „Es stellte sich heraus, dass wir nicht einmal an der Oberfläche gekratzt hatten.“

Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren