Anzeige
Anzeige
MIT Technology Review Analyse

Keiner weiß, wie Large Language Models wirklich ticken – und das ist ein Problem

Von MIT Technology Review Online
Seite 5 / 5
Anzeige
Anzeige

Inzwischen ringen die Forscher sogar mit ihren grundlegendsten Beobachtungen in Sachen KI. Im Dezember präsentierten Langosco von der Uni Cambridge und Kollegen auf der führenden Konferenz „NeurIPS“ ein Paper, in dem sie behaupteten, dass Grokking und Double Descent tatsächlich Aspekte desselben Phänomens sind. „Wenn man oberflächlich draufguckt, sehen sie sich ziemlich ähnlich“, sagt Langosco. Er ist der Meinung, dass eine Erklärung für das, was vor sich geht, beide Aspekte berücksichtigen sollte.

Anzeige
Anzeige

Auf der gleichen Konferenz argumentierte Alicia Curth, die an der Universität Cambridge Statistik untersucht, dass Double Descent in Wirklichkeit wahrscheinlich eine Illusion ist. „Es hat mir überhaupt nicht gefallen, dass modernes Maschinelles Lernen eine Art Magie sein soll, die sich über alle Gesetze hinwegsetzt, die wir bisher aufgestellt hatten“, sagt sie. Curth und ihr Team argumentieren, dass das Phänomen des Double Descents – bei dem die Modelle wie gesagt erst besser, dann schlechter und dann wieder besser zu werden scheinen, wenn sie größer werden – durch die Art und Weise entsteht, wie die Komplexität der Modelle gemessen wurde.

Das richtige Maß

Belkin und Kollegen verwendeten die Modellgröße – also die Anzahl der Parameter – als Maß für die Komplexität. Curth und ihre Kollegen fanden jedoch heraus, dass die Anzahl der Parameter möglicherweise kein gutes Maß dafür ist, da das Hinzufügen von Parametern ein Modell manchmal komplexer und manchmal sogar weniger komplex macht. Es komme darauf an, um welche Werte es sich handelt, wie sie beim Training verwendet werden und wie sie mit den anderen interagieren – vieles davon bleibt im Modell verborgen. „Unsere Erkenntnis war, dass nicht alle Modellparameter gleich sind“, sagt Curth.

Anzeige
Anzeige

Kurz gesagt, wenn man ein anderes Maß für die Komplexität verwendet, können sehr große Sprachmodelle sehr wohl der klassischen Statistik entsprechen. Das soll nicht heißen, dass wir eine Menge darüber wüssten, was passiert, wenn Modelle größer werden, sagt Curth. Aber wir haben immerhin alle mathematischen Grundlagen, die wir brauchen, um sie zu erklären.

Das größte Geheimnis unserer Zeit?

Die Sinnhaftigkeit solcher Debatten lässt sich hinterfragen. Warum ist es wichtig, dass KI-Modelle durch klassische Statistik untermauert werden? Eine Antwort ist, dass ein besseres theoretisches Verständnis helfen kann, noch bessere KI-Systeme zu entwickeln oder sie wenigstens effizienter zu machen. Im Moment sind die Fortschritte zwar schnell, aber quasi unvorhersehbar. Vieles, was OpenAIs GPT-4 kann, war selbst für seine Entwickler überraschend. Die Forscher streiten sich immer noch darüber, was es wirklich leisten kann und was nicht. „Ohne eine Art grundlegender Theorie ist es sehr schwer, eine Vorstellung davon zu haben, was wir von den Modellen erwarten können“, sagt Belkin.

Anzeige
Anzeige

Forscherkollege Barak stimmt dem zu. „Selbst wenn wir die Modelle haben, ist es selbst im Nachhinein nicht einfach, genau darzulegen, warum bestimmte Fähigkeiten zu einem bestimmten Zeitpunkt entstanden sind“, sagt er. Dabei geht es nicht nur um die Verwaltung eines Fortschritts, sondern auch um die Antizipation von Risiken. Viele der Forscher, die an einer allgemeinen Theorie des Deep Learnings arbeiten, sind durch Fragen der Sicherheit motiviert. „Wir wissen nicht, welche Fähigkeiten GPT-5 haben wird, bis wir es trainiert und getestet haben“, sagt Langosco. „Im Moment mag das ein mittelgroßes Problem sein, aber in Zukunft wird es zu einem wirklich großen Problem werden, wenn die Modelle immer leistungsfähiger sind.“

Barak arbeitet deshalb im Superalignment-Team von OpenAI, das vom Chefwissenschaftler des Unternehmens, Ilya Sutskever, gegründet wurde, um herauszufinden, wie man eine hypothetische Superintelligenz davon abhalten kann, zur Gefahr zu werden. „Ich bin sehr daran interessiert, eine Garantie zu erhalten, dass das nicht passiert“, sagt er. „Wenn jemand erstaunliche Dinge tun kann, sie aber nicht wirklich kontrolliert, dann ist das nicht so toll. Was nützt ein Auto, das 300 Meilen pro Stunde fahren kann, aber ein wackeliges Lenkrad hat?“

Anzeige
Anzeige

Hinter all dem verbirgt sich aber auch einfach eine große wissenschaftliche Herausforderung. „Die Frage nach der Intelligenz ist definitiv eines der großen Rätsel unserer Zeit“, sagt Barak. „Wir sind eine sehr junge Wissenschaft.“ Die Fragen, die ihn in diesem Monat am meisten interessierten, seien im nächsten wieder andere. „Wir sind noch dabei, die Dinge zu entdecken. Wir müssen noch viel experimentieren und uns dabei überraschen lassen.“

 

Will Douglas Heaven ist Autor dieses Textes. Er ist Redakteur bei der US-amerikanischen Ausgabe von MIT Technology Review. Thematisch schreibt er vor allem über künstliche Intelligenz und die Menschen hinter dieser Technologie.
Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige