Anzeige
Anzeige
Anzeige
Anzeige
MIT Technology Review Analyse
Verpasse keine News mehr!

Keiner weiß, wie Large Language Models wirklich ticken – und das ist ein Problem

Von MIT Technology Review Online
Seite 4 / 5
Anzeige
Anzeige

Für Belkin sind große Sprachmodelle also ein ganz neues Rätsel. Diese Modelle basieren auf Transformatoren, einer Art von neuronalen Netzen, die gut darin sind, Sequenzen von Daten, wie Wörter in Sätzen, zu verarbeiten.

Anzeige
Anzeige

In Transformatoren steckt eine Menge Komplexität, sagt Belkin. Aber er glaubt, dass sie im Grunde genommen mehr oder weniger dasselbe tun wie ein viel besser verstandenes statistisches Konstrukt, die so genannte Markow-Kette, die das nächste Element in einer Sequenz auf der Grundlage dessen vorhersagt, was vorher geschah. Aber das reicht nicht aus, um all das zu erklären, was große Sprachmodelle leisten können. „Bis vor Kurzem dachten wir, dass so etwas gar nicht funktionieren sollte“, sagt Belkin. „Das bedeutet, dass etwas Grundlegendes fehlte. Es zeigt eine Lücke in unserem Verständnis der Welt auf.“

Belkin geht sogar noch weiter. Er glaubt, dass es in Sprache ein verborgenes mathematisches Muster geben könnte, das große Sprachmodelle irgendwie ausnutzen können: „Das ist reine Spekulation, aber warum nicht?“

Anzeige
Anzeige

„Die Tatsache, dass diese KI-Systeme Sprache modellieren, ist wahrscheinlich eine der größten Entdeckungen unserer Geschichte“, sagt er. „Dass man eine Sprache lernen kann, indem man einfach das nächste Wort mithilfe einer Markow-Kette vorhersagt – das war einfach schockierend für mich.“

Erstmal klein anfangen

Die Forscher versuchen inzwischen, Schritt für Schritt vorzugehen. Da große Modelle zu komplex sind, um sie wirklich zu untersuchen, experimentieren Belkin, Barak, Zhou und andere KI-Wissenschaftlern stattdessen mit kleineren (und älteren) Arten von KI-Systemen, die besser verstanden werden. Wenn man diese Stellvertreter unter verschiedenen Bedingungen und mit verschiedenen Arten von Daten trainiert und beobachtet, was passiert, kann man einen Einblick in die darin ablaufenden Vorgänge gewinnen. Das hilft zwar dabei, neue Theorien aufzustellen, aber es ist nicht immer klar, ob diese Theorien auch für größere Modelle gelten. Schließlich ist es die Komplexität großer Modelle, die viele der seltsamen Verhaltensweisen hervorbringen, die nicht verstanden werden.

Ist eine allgemeine Theorie für das Deep Learning in Sicht? David Hsu, Informatiker an der Columbia University und einer der Mitautoren von Belkins Arbeit über den Double Descent, erwartet nicht, dass wir alle Antworten in absehbarer Zeit finden werden. „Wir haben jetzt zwar eine etwas bessere Intuition. Aber können wir damit wirklich erklären, warum neuronale Netze diese Art von unerwartetem Verhalten zeigen? Davon sind wir noch weit entfernt.“

Im Jahr 2016 veröffentlichten Chiyuan Zhang vom MIT und seine Kollegen von Google Brain eine einflussreiche Arbeit mit dem Titel „Understanding Deep Learning Requires Rethinking Generalization“. Um Deep Learning zu verstehen, müssen wir Generalisierung neu denken.

Anzeige
Anzeige

Das neue Denken hört nicht auf

Im Jahr 2021, fünf Jahre später, veröffentlichten sie das Papier dann erneut und nannten es einfach nur „Understanding Deep Learning (Still) Requires Rethinking Generalization“ – das neue Denken hört nicht auf. Und im Jahr 2024 gleich wieder? „Dazu würde ich irgendwie ja und nein sagen“, so Zhang. „Es hat in letzter Zeit viele Fortschritte gegeben, obwohl wahrscheinlich viel mehr Fragen auftauchten als gelöst wurden.“

Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren