Anzeige
Anzeige
MIT Technology Review Analyse

Keiner weiß, wie Large Language Models wirklich ticken – und das ist ein Problem

Large Language Models (LLM) sind faszinierend gut darin, Texte zu generieren. Wie sie das genau tun, gehört zu den größten wissenschaftlichen Rätseln unserer Zeit.

Von MIT Technology Review Online
14 Min.
Artikel merken
Anzeige
Anzeige

Wie Sprachmodelle plötzlich Dinge können, auf die sie nicht trainiert wurden, ist eine der Fragen die KI-Forscher:innen beschäftigt. (Symbolbild: Summit Art Creations/Shutterstock)

Vor zwei Jahren versuchten Yuri Burda und Harri Edwards, Forscher beim KI-Konzern OpenAI aus San Francisco, herauszufinden, was nötig wäre, um ein großes Sprachmodell (Large Language Model, LLM) dazu zu bringen, grundlegende Arithmetik zu betreiben. Sie wollten wissen, wie viele Beispiele für die Addition von zwei Zahlen das Modell denn sehen musste, bevor es in der Lage war, zwei beliebige Zahlen in einem Prompt zu addieren. Am Anfang lief alles nicht so toll. Die Modelle merkten sich die Summen zwar, die sie gelernt hatten, konnten aber keine neuen Aufgaben lösen.

Anzeige
Anzeige

Versehentlich ließen Burda und Edwards dann aber einige ihrer Trainingsexperimente viel länger laufen, als sie eigentlich wollten –Tage statt Stunden. Den Modellen wurden die Beispielsummen immer und immer wieder vorgeführt, und zwar weit über den Punkt hinaus, an dem die Forscher üblicherweise aufgegeben hätten. Als Burda und Edwards schließlich zurückkamen, waren sie überrascht, dass das es plötzlich klappte: Sie hatten ein großes Sprachmodell darauf trainiert, zwei Zahlen zu addieren – es hatte nur sehr viel mehr Zeit in Anspruch genommen, als sie erwartet hatten.

Als ob eine Glühlampe angegangen wäre

Die Neugier der beiden Forscher war geweckt und sie taten sich mit weiteren Kollegen zusammen, um das Phänomen näher zu untersuchen. Sie fanden heraus, dass Modelle in bestimmten Fällen eine Aufgabe scheinbar anfangs einfach nicht verstehen, sie dann aber plötzlich beherrschen, als ob da eine Glühlampe über ihrem virtuellen Kopf angegangen wäre. Das Problem: So sollte nach aktueller Lehrmeinung Deep Learning eigentlich nicht funktionieren. Das Verhalten bekam deshalb einen eher lustigen Namen: „Grokking“, zu Deutsch ungefähr: plötzliches Begreifen.

Anzeige
Anzeige

„Das war wirklich interessant“, sagt Hattie Zhou, KI-Forscherin an der Universität von Montreal, die auch im Machine-Learning-Team von Apple tätig ist und die Forschungsarbeit kennt, die uns das Grokking näherbrachte. Daraus ergäben sich viele Fragen: „Können wir jemals sicher sein, dass die Modelle aufgehört haben, etwas zu lernen? Denn vielleicht haben wir sie einfach nicht lange genug trainiert.“

Das merkwürdige Verhalten der großen Sprachmodelle hat die Fantasie der breiteren KI-Forschungs-Community beflügelt. „Viele Leute haben eine Meinung dazu entwickelt“, sagt Lauro Langosco von der Universität Cambridge in Großbritannien. „Aber ich glaube nicht, dass es einen Konsens darüber gibt, was genau hier vor sich geht.“

Anzeige
Anzeige

Mit Grokking zum Ziel

Grokking ist nur eines von mehreren seltsamen Phänomenen, über die sich KI-Forscher seit längerem den Kopf zerbrechen. Insbesondere große Sprachmodelle – aber auch andere KI-Systeme mit vielen Trainingsdaten – scheinen sich auf eine Art und Weise zu verhalten, wie sie laut Lehrmeinung nicht existieren sollte. Das unterstreicht eine bemerkenswerte Tatsache beim Deep Learning, der grundlegenden Technologie hinter dem heutigen KI-Boom: Trotz des durchschlagenden Erfolgs der Chatbots, Bildgeneratoren und Co. weiß niemand wirklich ganz genau, wie – oder warum – sie funktionieren.

„Natürlich sind wir nicht völlig unwissend“, betont Mikhail Belkin, Informatiker an der University of California in San Diego. „Aber unsere theoretische Analyse ist weit von dem entfernt, was diese Modelle leisten können. Warum genau können sie zum Beispiel Sprachen lernen? Selbst ich rätsele darüber.“

Anzeige
Anzeige

Die größten der KI-Systeme sind längst so komplex, dass die Forscher sie eher wie seltsame Naturphänomene untersuchen als wie eine vom Menschen erdachte Technik. Es werden Experimente durchgeführt und versucht, deren Ergebnisse zu erklären. Viele dieser Beobachtungen stehen im Widerspruch zur klassischen Statistik, die bisher die besten Erklärungen für das Verhalten von auf Basis von Wahrscheinlichkeiten arbeitenden Systemen (Predictive Models) geliefert hat.

Eigentlich könnte uns das ja herzlich egal sein, solange die Technik funktioniert. In den letzten Monaten hat Google mit Gemini eine neue Modellfamilie vorgestellt, die deutlich mehr kann und in fast allen Anwendungen des Internetriesen landen soll. OpenAI begeisterte die Massen unterdessen mit dem Text-to-Video-Modell Sora. Währenddessen bemühen sich Unternehmen auf der ganzen Welt, KI für ihre Bedürfnisse zu nutzen. Warum also grübeln?

Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige