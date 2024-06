Es gibt keine veröffentlichte und von Experten begutachtete Studie, kein Preprint-Paper, ja nicht einmal eine offizielle Bestätigung seiner Existenz. Dennoch schlug ein KI-Modell namens Q* (Q-Star) im November 2023 hohe Wellen. Von OpenAI entwickelt, soll Q* mutmaßlich in der Lage sein, mathematische Aufgaben auf Schulniveau mit fast 100-prozentiger Genauigkeit zu lösen. Wie die Nachrichtenagentur Reuters schrieb, sehen Insider von OpenAI in Q* einen Durchbruch auf dem Weg zu einer Allgemeinen Künstlichen Intelligenz (AGI). Sprich: zu einer KI, die einer allgemeinen Definition zufolge „die Fähigkeit besitzt, jede intellektuelle Aufgabe zu verstehen oder zu lernen, die ein Mensch ausführen kann“.

Dass ausgerechnet das Lösen von Grundschulmathematik der Anfang einer solchen Entwicklung sein soll, klingt zunächst unwahrscheinlich. Doch Mathematik ist der Maßstab für logisches Denken, und eine generative Künstliche Intelligenz, die nicht nur zusammenhängende Sätze formulieren, sondern auch logisch denken kann, wäre tatsächlich eine Sensation. Eine solche Maschine könnte nämlich lernen, noch ganz andere Aufgaben zu erledigen. Sie könnte Schlussfolgerungen ziehen, Chancen und Risiken abwägen und abstrakte Ideen verstehen, die bislang nur uns Menschen vorbehalten sind. Und sie könnte dabei helfen, die großen Probleme unserer Zeit zu meistern. „Wenn wir Herausforderungen wie den Klimawandel angehen wollen, dann brauchen wir fächerübergreifende, intelligente Systeme, die uns unterstützen und Hinweise und Lösungsvorschläge geben können“, sagt Kristian Kersting, Leiter des Labors für Künstliche Intelligenz und Maschinelles Lernen an der TU Darmstadt. „Wenn diese Systeme keine Mathematik beherrschen, kann das kaum funktionieren.“

Dieser Text ist zuerst in der Ausgabe 3/2024 von MIT Technology Review erschienen. Darin beschäftigen wir uns damit, was nach ChatGPT und Co. kommt. Hier könnt ihr die TR 3/2024 bestellen.

Ähnlich sieht das Geordie Williamson. Der Mathematiker forscht – nach einigen Jahren am Max-Planck-Institut für Mathematik in Bonn – inzwischen an der Universität von Sydney und kollaboriert mit Googles DeepMind an den Schnittstellen von maschinellem Lernen und Mathematik. „Für KI-Forscher ist die Mathematik ein wichtiger Lackmustest“, sagt Williamson. Schon Alan Turing habe in seinen ersten Artikeln zu dem Thema die Mathematik als eine der interessantesten Applikationen für „intelligente Maschinen“ erwähnt. „Wenn die KI in den mathematischen Wissenschaften breit aufgestellt ist, kann sie zu jedem Problem beitragen, das uns begegnen wird“, sagt Williamson. Das Potenzial sei erheblich. Man müsse nur die richtigen Werkzeuge finden.

ChatGPT scheitert an Schulaufgaben

Ob KI-Sprachmodelle wie GPT oder LLaMA in ihrer jetzigen Form die richtigen Tools sind, um mathematische Probleme zu lösen, ist fraglich. Zwar können die jüngsten Modelle wie GPT-4 arithmetische Aufgaben und Logarithmen insgesamt besser lösen als ihre Vorgänger. Doch selbst wenn sie in vereinzelten Tests beeindrucken, zeigen Studien und Erfahrungsberichte, dass sie selbst bei vermeintlich einfachen Schulaufgaben immer noch schnell an ihre Grenzen stoßen oder bei den gleichen Aufgaben zu unterschiedlichen Ergebnissen kommen. Wie inzwischen zahlreiche Schülerinnen und Schüler enttäuscht feststellen mussten, benötigt ChatGPT offenbar selbst Nachhilfe in Mathe.

„Sprachmodelle wie ChatGPT sind darauf trainiert worden, Sätze zu produzieren, indem sie statistisch gesehen das nächste wahrscheinliche Token voraussagen. Es kann sein, dass in den Trainingsdaten Aufgaben wie 2 + 2 = 4 enthalten sind und das Modell deshalb die richtige Antwort vorhersagt. Es kann dieses Wissen aber nicht auf beliebige andere Aufgaben transferieren“, sagt Kersting.

Obwohl das Modell korrekte Lösungen nachahmen kann, produziert es regelmäßig kritische Logikfehler.

Dazu kommt, dass Sprachmodelle sequenziell von Input zu Output arbeiten, sprich ihre Antworten Wort für Wort generieren, aber diese nicht rückwirkend anpassen, was man auch daran erkennt, dass etwa ChatGPT sich bisweilen innerhalb einer Anfrage wiederholt und den gleichen Inhalt in verschiedenen Worten sagt. Sie sind deshalb auch nicht für Aufgaben gedacht, die mehrere Variablen berücksichtigen müssen, die nicht-lineares Denken, gedankliches Zwischenspeichern und die Manipulation von Zeichen erfordern. „Obwohl das Modell korrekte Lösungen nachahmen kann, produziert es regelmäßig kritische Logikfehler“, schrieben die Entwickler von OpenAI schon vor zwei Jahren über die mathematischen Einschränkungen von GPT.

Logik lernen

Eine Herausforderung besteht darin, Sprachmodelle mit einer Fähigkeit für „reasoning“ auszustatten – für logisches und schlussfolgerndes Denken. Ein Ansatz sind sogenannte Chain-of-Thought-Verfahren (CoT), in denen man die KI-Modelle mit gezieltem Prompting dazu bringt, ihre Argumentation beim Beantworten der Anfragen schrittweise offenzulegen, zu hinterfragen und gegebenenfalls zu korrigieren. Bereits im Sommer 2022 demonstrierten Forscher von Google mit dem Sprachmodell Minerva, dass sich mathematische und wissenschaftliche Fragen besser beantworten ließen, wenn das Sprachmodell seinen Lösungsweg als Teil der Antwort gleich mitlieferte. Bei den Mathematik-Datensätzen MATH und GSM8K, die jeweils Tausende Übungsaufgaben enthalten, schnitt Minerva besser ab als andere Sprachmodelle zu diesem Zeitpunkt.

Anzeige Anzeige

Darauf aufbauend demonstrierten Forscher von Google im Januar 2023, dass CoT-Prompting die Leistung des Sprachmodells bei Rechenaufgaben und symbolischem Denken verbessern konnte. OpenAI gelang es im Mai, in einem „Prozessüberwachung“ genannten Verfahren, bei dem das KI-Modell Feedback für jeden Zwischenschritt seiner Argumentation bekam, ebenfalls bessere Ergebnisse in Mathe-Benchmarks zu erreichen. Im Dezember stellte DeepMind dann ein Tree-of-Thoughts-Verfahren vor: Mithilfe eines Gedankenbaums konnte ein Sprachmodell seine Lösungen bewusster planen, verschiedene Argumentationspfade ausprobieren und zu einem vorherigen Punkt zurückkehren, wenn es nicht weiterkam. So wie ein Mensch beim Lösen einer Rechenaufgabe im Kopf für jeden erforderlichen Zwischenschritt verschiedene Lösungswege abwägt und jeweils dem einfachsten oder schnellsten Pfad zur Lösung folgt.

Ein zweiter Ansatz, der sich nicht auf das Prompting bezieht, sondern an die interne Architektur der Modelle andockt, besinnt sich auf die Anfänge der KI-Forschung zurück, und zwar auf die symbolische Künstliche Intelligenz. Sie war ab den Fünfzigern bis in die neunziger Jahre hinein das vorherrschende Paradigma. Die Idee war es, das menschliche Wissen über ein bestimmtes Problem in eine formale und maschinenlesbare Form zu bringen, etwa in Form eines Suchbaums. Der besteht aus Knoten, die durch Kanten miteinander verbunden sind – und zwar immer dann, wenn sich einer der Zustände des Problems durch Anwendung der jeweiligen Regeln in einen zweiten Zustand überführen lässt. Dem Computerprogramm Logic Theorist gelang es auf diese Art bereits im Jahr 1956, 38 der ersten 52 Theoreme der Principia Mathematica zu beweisen. In dem dreibändigen Werk hatten die Mathematiker Alfred North Whitehead und Bertrand Russell versucht, die gesamte Mathematik aus so wenigen Prämissen wie möglichen abzuleiten. Im Wesentlichen beruhte das darauf, dass die Software einen durchgehenden Weg zwischen dem Theorem und einem zuvor bereits bewiesenen Punkt in dem Suchbaum fand.