Keiner weiß, wie Large Language Models wirklich ticken – und das ist ein Problem
Ganz einfach: Herauszufinden, warum Deep Learning so gut funktioniert, ist nicht nur ein faszinierendes wissenschaftliches Rätsel. Es könnte auch der Schlüssel dazu sein, die nächste Generation der Technologie zu entwickeln – und gleichzeitig die mit KI verbundenen gewaltigen Risiken in den Griff zu bekommen.
„Es sind aufregende Zeiten“, sagt Boaz Barak, Informatiker an der Harvard University, der für ein Jahr in das Superalignment-Team von OpenAI entsandt wird, das KI möglichst menschenfreundlich gestalten soll. „Viele Menschen auf diesem Gebiet vergleichen es oft mit der Physik zu Beginn des 20. Jahrhunderts. Es existieren viele experimentelle Ergebnisse, die wir nicht vollständig verstehen – und oft werden wir überrascht von neuen Experimenten.“
Alter Code, neue Tricks
Die meisten dieser Überraschungen betreffen die Art und Weise, wie Modelle lernen können, Dinge zu tun, mit denen sie zuvor noch keine Erfahrung hatten. Das wird als Generalisierung bezeichnet und ist eine der Grundlagen des Maschinellen Lernens – und trotzdem sein größtes Rätsel. Modelle lernen, eine Aufgabe zu erfüllen – Gesichter zu erkennen, Sätze zu übersetzen, Fußgängern auszuweichen –, indem wir sie mit einer bestimmten Gruppe von Beispielen trainieren. Sie können daraus jedoch verallgemeinern und lernen, diese Aufgabe dann mit neuen Beispielen zu erledigen, die sie noch nie gesehen haben. Irgendwie prägen sich Modelle nicht nur Muster ein, die sie gesehen haben, sondern entwickeln interne Regeln, mit denen sie diese Muster auf neue Fälle anwenden können. Und manchmal, wie beim Grokking, geschieht diese Generalisierung, wenn wir sie nicht erwarten.
Insbesondere große Sprachmodelle wie GPT-4 von OpenAI oder Gemini von Google-Deepmind haben erstaunliche Fähigkeiten bei der Generalisierung. „Die Magie besteht nicht darin, dass das Modell mathematische Probleme auf Englisch lösen lernen und dann auf neue mathematische Probleme in der gleichen Sprach übertragen kann“, sagt Barak. „Dass Modell kann mathematische Probleme auf Englisch lernen, sich dann ein wenig französische Literatur zur Gemüte führen und davon ausgehend dann generalisieren, um plötzlich mathematische Probleme auf Französisch zu lösen.“ All das sei etwas, das über das hinausgeht, was Statistik aussagen könne.
„Das war hier überhaupt nicht der Fall“
Als Zhou vor einigen Jahren begann, KI zu studieren, fiel ihr auf, dass ihre Lehrer sich auf das Wie, aber nicht auf das Warum konzentrierten. „Es ging darum, wie man diese Modelle trainiert und Ergebnisse erhält“, sagt sie. „Aber es war nicht klar, warum dieser Prozess zu Modellen führt, die in der Lage sind, diese erstaunlichen Dinge zu tun.“ Sie wollte mehr wissen, aber man wimmelte sie ab und sagte, es gäbe keine guten Antworten: „Ich war immer davon ausgegangen, dass Wissenschaftler wissen, was sie tun. Sie stellen Theorien auf und bauen dann das Modell. Das war hier aber überhaupt nicht der Fall.“
Die rasanten Fortschritte beim Deep Learning in den letzten über zehn Jahren beruhten eher auf Versuch und Irrtum als auf einem Verständnis von dem, was da vor sich ging. Die Forscher kopierten einfach, was bei anderen funktionierte, und fügten dann eigene Innovationen hinzu. Inzwischen gibt es viele verschiedene Zutaten, die zu einem Modell hinzugefügt werden können – eine Art Kochbuch mit Rezepten. „Die Leute probieren dies und jenes aus, haben diese Tricks entwickelt“, sagt Belkin. „Manche davon sind wichtig. Manche sind es wahrscheinlich nicht.“
Dass das funktioniere, sei erstaunlich. „Wir sind verblüfft darüber, wie leistungsfähig diese Dinger sind“, sagt er. Doch trotz der Erfolge ist das besagte Kochbuch eher Alchemie als Chemie, ein bisschen wie ein Hexenkochtopf „mit Beschwörungsformeln um Mitternacht, nachdem wir uns einige Zutaten zusammengemixt haben“, grinst der Forscher.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team