Anzeige
Anzeige
Anzeige
Anzeige
MIT Technology Review Feature
Verpasse keine News mehr!

KI und Mathematik: Wie Sprachmodelle wirklich gut rechnen sollen

Mathematik auf Highschool-Niveau und darüber hinaus: Im letzten Jahr haben große Sprachmodelle erstaunliche Fortschritte erzielt. Ist KI dabei, menschliche Mathematiker einzuholen?

Von MIT Technology Review Online
12 Min.
Artikel merken
Anzeige
Anzeige

Fiktionalisierte Arbeit an einem LLM. (Grafik: Midjourney / t3n)

Nach Ansicht der US-Militärforschungsbehörde DARPA ist die Mathematik in der Vergangenheit stecken geblieben. Im April startete sie deshalb eine neue Initiative namens expmath – kurz für „Exponentiating Mathematics“ (Mathematik potenzieren) –, von der sie sich eine Beschleunigung des Fortschritts in einem Forschungsbereich erhofft, der eine Vielzahl wichtiger Anwendungen untermauert. Von der Informatik über die Medizin bis hin zur nationalen Sicherheit: „Mathematik hat einen enormen Einfluss, aber sie wird mehr oder weniger so betrieben wie seit Jahrhunderten – von Menschen, die an einer Tafel stehen.“ Das sagte DARPA-Programmmanager Patrick Shafto in einem Video zur Vorstellung der Initiative.

Anzeige
Anzeige

Die moderne Welt basiert auf Mathematik. Damit können wir komplexe Systeme modellieren, beispielsweise die Luftströmung um ein Flugzeug, die Schwankungen der Finanzmärkte oder den Blutfluss durch das Herz. Durchbrüche in der höheren Mathematik können neue Technologien erschließen, beispielsweise in der Kryptografie, die für die sichere Nachrichtenübermittlung und das Online-Banking unverzichtbar sind. Oder in der Datenkomprimierung, die es uns ermöglicht, Bilder und Videos schnell über das Internet zu übertragen.

Fortschritte in der Mathematik können jedoch Jahre dauern. Die DARPA möchte diesen Prozess daher beschleunigen. Das Ziel von expmath ist es, Mathematiker und Forscher im Bereich der Künstlichen Intelligenz dazu anzuregen, einen sogenannten AI-Coauthor zu entwickeln. Das ist ein Tool, das große, komplexe mathematische Probleme in kleinere, einfachere Probleme zerlegt, die leichter zu verstehen und – so die Idee – schneller zu lösen sind. Mathematiker nutzen Computer seit Jahrzehnten, um Berechnungen zu beschleunigen oder zu überprüfen, ob bestimmte mathematische Aussagen korrekt sind. Die neue DARPA-Vision ist, dass KI ihnen helfen könnte, Probleme zu lösen, die bisher unlösbar waren.

Anzeige
Anzeige

Es besteht ein großer Unterschied zwischen KI, die Probleme lösen kann, wie sie in der Schule vorkommen, und KI, die Probleme lösen könnte, an denen professionelle Mathematiker ihr ganzes Berufsleben lang arbeiten. Wir haben es zum einen mit einer Automatisierung dessen zu tun, wofür bislang Hilfswissenschaftler eingesetzt wurden, und Werkzeugen, die das bestehende Wissen erweitern könnten. Doch wie wird diese Kluft überwunden? Drei zentrale Elemente müssen dafür zusammenkommen.

1. KI braucht mehr als nur clevere Tricks

Large Language Models (LLMs) sind bekanntermaßen nicht besonders gut in Mathematik. Sie halluzinieren und können sogar davon überzeugt werden, dass 2 + 2 = 5 ist. Neuere Varianten großer Sprachmodelle, insbesondere sogenannte Large Reasoning Models (LRMs) wie OpenAI o3 und Anthropic Claude 4 Thinking, sind weitaus leistungsfähiger – und das begeistert jetzt auch Mathematiker. 2025 haben eine Reihe von LRMs, die versuchen, ein Problem Schritt für Schritt zu lösen, anstatt das erste Ergebnis auszuspucken, das ihnen einfällt, wichtige Benchmarks genommen. So wurden hohe Punktzahlen bei der American Invitational Mathematics Examination (Aime) erzielt, einem Test, den die besten 5 Prozent der US-amerikanischen Highschool-Mathematikschüler nehmen.

Gleichzeitig haben auch eine Handvoll neuer Hybridmodelle, die LLMs mit einer Art Faktenprüfungssystem kombinieren, mathematische Durchbrüche erzielt. Emily de Oliveira Santos, Mathematikerin an der Universität von São Paulo, Brasilien, nennt Alphaproof von Google Deepmind, ein System, das ein LLM mit dem Spielmodell Alphazero von Deepmind kombiniert, als einen wichtigen Meilenstein. Im vergangenen Jahr war Alphaproof das erste Computerprogramm, das die Leistung eines Silbermedaillengewinners bei der internationalen Mathematik-Olympiade, einem der renommiertesten Mathematikwettbewerbe, erreichen konnte.

Im Mai erzielte ein Google Deepmind-Modell namens Alphaevolve dann bessere Ergebnisse als das, was Menschen bisher für mehr als 50 ungelöste mathematische Rätsel und wichtige reale Probleme aus der Informatik an Lösungen gefunden hatten. Der Fortschritt ist also deutlich zu erkennen. „GPT-4 konnte nicht viel mehr als Mathematik auf Bachelor-Niveau“, sagt de Oliveira Santos. „Ich erinnere mich, dass ich es zum Zeitpunkt seiner Veröffentlichung mit einem Problem aus der Topologie getestet habe. Es konnte nur ein paar Zeilen ausgeben, bevor es völlig den Faden verlor.“ Als sie jedoch dasselbe Problem OpenAI o1, einem im Januar veröffentlichten LRM, gab, klappte die Lösung ohne Probleme.

Anzeige
Anzeige

Bedeutet dies, dass solche Modelle nun zu den mathematischen AI-Coauthors werden, die sich die DARPA erhofft? Nicht unbedingt, sagt Santos: „Bei Mathematik-Olympiade-Aufgaben geht es oft darum, clevere Tricks anzuwenden, während Forschungsprobleme viel explorativer sind und oft viel mehr bewegliche Teile haben.“ Der Erfolg bei einer Art von Problemlösung lässt sich nicht unbedingt auf eine andere übertragen.

Eine Frage des Trainings

Andere Experten stimmen dem zu. Martin Bridson, Mathematiker an der Universität Oxford, hält das Ergebnis von der Mathematik-Olympiade zwar für eine großartige Leistung. „Andererseits finde ich es nicht so umwerfend“, sagt er. „Es ist kein Paradigmenwechsel in dem Sinne, dass ich dachte: ‚Wow, ich hätte nie gedacht, dass Maschinen das können.‘ Ich habe erwartet, dass Maschinen das können.“

Das liegt wohl daran, dass die Aufgaben der Mathematik-Olympiade – und ähnlicher Tests für Schüler und Studenten wie Aime – zwar schwierig sind, aber viele davon einem bestimmten Muster folgen. „Wir haben Trainingslager dafür, in denen wir Schüler darauf vorbereiten“, sagt Bridson. „Und wenn man eine große Anzahl von Menschen trainieren kann, diese Aufgaben zu lösen, warum sollte man dann nicht auch eine Maschine darauf trainieren können?“

Anzeige
Anzeige

Sergei Gukov, Mathematiker am California Institute of Technology und Trainer von Mathematik-Olympiade-Teams, weist darauf hin, dass sich der Stil der Fragen zwischen den Wettbewerben nicht allzu sehr ändert. Jedes Jahr werden neue Aufgaben gestellt, aber sie lassen sich mit den gleichen alten Tricks lösen. „Sicher, die konkreten Probleme gab es so noch nicht“, sagt Gukov.

„Aber sie sind sehr ähnlich – nur einen Schritt entfernt von unzähligen Dingen, die man schon kennt. Man merkt sofort: Oh mein Gott, da gibt es so viele Ähnlichkeiten, ich werde die gleiche Taktik anwenden.“ So schwer die Mathematik auf Wettbewerbsniveau auch ist, sowohl Kindern als auch Maschinen könne man beibringen, wie man sie meistert.

Millennium Prize für eine KI?

Das gilt jedoch nicht für die meisten ungelösten mathematischen Probleme aus der Forschung. Bridson ist Präsident des Clay Mathematics Institute, einer gemeinnützigen Forschungsorganisation mit Sitz in den USA, die vor allem dafür bekannt ist, im Jahr 2000 die Millennium Prize Problems ins Leben gerufen zu haben. Das sind sieben der wichtigsten ungelösten Probleme der Mathematik, für deren Lösung jeweils eine Million US-Dollar Belohnung ausgesetzt ist. (Ein Problem, die Poincaré-Vermutung, wurde 2010 gelöst; die anderen, darunter P versus NP und die Riemann-Hypothese, sind weiterhin offen.) „Wir sind noch sehr weit davon entfernt, dass KI etwas Ernstzunehmendes zu diesen Problemen sagen könnte“, winkt Bridson ab.

Anzeige
Anzeige

Und doch ist es schwer zu sagen, wie weit wir noch davon entfernt sind, da viele der bestehenden Benchmarks zur Bewertung des mathematischen Fortschritts bereits ausgeschöpft sind. Die besten neuen Modelle übertreffen bereits die meisten Menschen in Tests wie Aime. Um eine bessere Vorstellung davon zu bekommen, was bestehende Systeme können und was nicht, hat das Startup Epoch AI deshalb einen neuen Test namens Frontiermath entwickelt, der im Dezember veröffentlicht wurde. Anstatt für Menschen entwickelte Mathematiktests zu übernehmen, hat Epoch AI mit mehr als 60 Mathematikern aus aller Welt zusammengearbeitet, um eine Reihe von Mathematikaufgaben von Grund auf neu zu entwickeln.

FrontierMath soll die Grenzen der heutigen KI ausloten. Keine der Aufgaben ist bisher bekannt, und die meisten werden geheim gehalten, um eine Verfälschung der Trainingsdaten zu vermeiden. Jede Aufgabe erfordert stundenlange Arbeit von erfahrenen Mathematikern – wenn sie überhaupt gelöst werden können. Einige der Aufgaben erfordern zudem Spezialwissen. Frontiermath soll zum Industriestandard werden. Noch ist es nicht so populär wie Aime, sagt de Oliveira Santos, der an der Entwicklung einiger Aufgaben mitgewirkt hat: „Aber ich gehe davon aus, dass dies nicht mehr lange so bleiben wird, da die bestehenden Benchmarks fast gesättigt sind.“

Bei Aime erzielen die besten großen Sprachmodelle (Claude 4 von Anthropic, o3 und o4-mini von OpenAI, Gemini 2.5 Pro von Google Deepmind und Grok 3 von X-AI) derzeit rund 90 Prozent. Bei Frontiermath packt 04-mini 19 Prozent und Gemini 2.5 Pro 13 Prozent. Das ist immer noch bemerkenswert, aber es gibt eindeutig Verbesserungspotenzial. Frontiermath dürfte den besten Eindruck davon vermitteln, wie schnell KI in der Mathematik Fortschritte macht. Es gibt jedoch einige Probleme, die für die Modelle noch zu schwierig sind.

Anzeige
Anzeige

2. KI muss sehr umfangreiche Abfolgen von Schritten verarbeiten

Wenn man genau hinschaut, sehen mathematische Probleme in gewisser Weise alle gleich aus: Um sie zu lösen, muss man eine Abfolge von Schritten vom Anfang bis zum Ende durchführen. Das Problem besteht darin, diese Schritte überhaupt herauszufinden. „So gut wie jedes mathematische Problem lässt sich als Wegfindung formulieren“, sagt Gukov. Was manche Probleme so viel schwieriger macht als andere, ist die Anzahl der Schritte auf diesem Weg. „Der Unterschied zwischen der Riemannschen Hypothese und der Mathematik in der Oberstufe besteht darin, dass die Wege, die wir in der Oberstufe suchen, kurz sind – 10 Schritte, 20 Schritte, im längsten Fall vielleicht 40.“ Die Schritte wiederholen sich außerdem zwischen den Problemen.

„Aber um die Riemann-Hypothese zu lösen, kennen wir die Schritte zunächst nicht und wir suchen nach einem extrem langen Weg.“ Das sind vielleicht eine Million Zeilen Computernachweise, sagt Gukov. Das Finden sehr langer Abfolgen von Schritten kann als eine Art komplexes Spiel betrachtet werden. Das hat Deepmind Alphazero gelernt, als es Go und Schach gemeistert hat. Eine Partie Go umfasst zwar nur ein paar Hundert Züge. Um zu gewinnen, muss eine KI jedoch aus einer Vielzahl möglicher Zugfolgen eine Gewinnfolge herauslesen. Das sei dann eine Zahl mit 100 Nullen am Ende, sagt Gukov.

Aber das ist immer noch winzig im Vergleich zu der Anzahl möglicher Sequenzen, die zum Beweisen oder Widerlegen eines sehr schwierigen mathematischen Problems erforderlich sein könnten: „Ein Beweispfad mit Tausend oder einer Million Zügen beinhaltet eine Zahl mit Tausend oder einer Million Nullen“, sagt Gukov. Kein KI-System kann so viele Möglichkeiten durchforsten. Um dieses Problem zu lösen, entwickelten Gukov und seine Kollegen ein System, das die Länge eines Pfades verkürzt, indem es mehrere Züge zu einzelnen Superzügen kombiniert. Das ist so, als hätte man Stiefel, mit denen man riesige Schritte zurücklegen kann: Statt 2.000 Schritte zu machen, um eine Meile zu gehen, kann man sie nun in 20 Schritten zurücklegen.

Anzeige
Anzeige

Die Herausforderung bestand darin, herauszufinden, welche Züge durch Superzüge ersetzt werden sollten. In einer Reihe von Experimenten entwickelten die Forscher ein System, bei dem ein Modell des verstärkenden Lernens (Reinforcement Learning) neue Züge vorschlägt und ein zweites Modell überprüft, ob diese Züge hilfreich sind. Mit diesem Ansatz gelang ihnen ein Durchbruch bei einem mathematischen Problem, der sogenannten Andrews-Curtis-Vermutung, einem mathematischen Rätsel, das seit 60 Jahren ungelöst war. Es handelt sich um ein Problem, das jeder professionelle Mathematiker kennt, sagt Gukov.

KI blickt über den Tellerrand

Die AC-Vermutung besagt, dass eine bestimmte Art der Beschreibung einer Menge, die als triviale Gruppe bezeichnet wird, mit einer bestimmten Abfolge von Schritten in eine andere, aber äquivalente Beschreibung übersetzt werden kann. Die meisten Mathematiker halten die AC-Vermutung für falsch, aber niemand weiß, wie man das beweisen kann. Gukov gibt selbst zu, dass es sich eher um eine intellektuelle Kuriosität als um ein praktisches Problem handelt, aber dennoch um ein wichtiges Thema für Mathematiker.

Gukov und seine Kollegen haben das Thema AC-Vermutung nicht geklärt, aber sie haben herausgefunden, dass ein vor 40 Jahren vorgeschlagenes Gegenbeispiel (das darauf hindeutet, dass die Vermutung falsch ist) selbst falsch ist. „Das war 40 Jahre lang eine wichtige Angriffsrichtung“, sagt Gukov. Mithilfe der KI konnten sie zeigen, dass diese Richtung tatsächlich eine Sackgasse war.

Anzeige
Anzeige

„Mögliche Gegenbeispiele auszuschließen, ist eine lohnende Sache“, sagt Bridson. „Dadurch können Sackgassen geschlossen werden, deren Erforschung einen ein Jahr lang beschäftigen könnte.“

Zwar hat Gukov nur einen Teil eines esoterischen Puzzles gelöst. Aber er glaubt, dass dieser Ansatz in jedem Szenario funktioniert, in dem eine lange Folge unbekannter Schritte gefunden werden muss. Er plant nun, ihn bei anderen Problemen auszuprobieren. „Vielleicht führt das zu etwas, das der KI im Allgemeinen weiterhilft“, sagt er. „Denn damit lernen Reinforcement-Learning-Modelle, über ihr Training hinauszugehen. Für mich geht es im Grunde darum, über den Tellerrand hinauszuschauen – meilenweit, megaparsecweit.“

3. Kann KI jemals echte Erkenntnisse liefern?

Über den Tellerrand hinauszuschauen ist genau das, was Mathematiker brauchen, um schwierige Probleme zu lösen. Mathematik wird oft mit roboterhaften, schrittweisen Verfahren assoziiert. Aber fortgeschrittene Mathematik ist ein experimentelles Unterfangen, das Versuch und Irrtum sowie echte Geistesblitze erfordert.

Hier kommen Tools wie Alphaevolve ins Spiel. Das neueste Modell von Google Deepmind fordert ein LLM auf, Code zur Lösung eines bestimmten mathematischen Problems zu generieren. Ein zweites Modell bewertet dann die vorgeschlagenen Lösungen, wählt die besten aus und sendet sie zur Verbesserung an das LLM zurück. Nach Hunderten von Versuchen und Irrtümern war Alphaevolve in der Lage, Lösungen für eine Vielzahl von mathematischen Problemen zu finden, die besser waren als alles, was Menschen bisher entwickelt hatten. Es kann aber auch als kollaboratives Werkzeug eingesetzt werden: In jedem Schritt können Menschen ihre eigenen Erkenntnisse mit dem LLM teilen und ihm spezifische Anweisungen geben.

Diese Art der Erforschung ist für die höhere Mathematik von entscheidender Bedeutung. „Ich bin oft auf der Suche nach interessanten Phänomenen und treibe mich selbst in eine bestimmte Richtung“, sagt Geordie Williamson, Mathematiker an der Universität von Sydney in Australien. „Das ist so, als würde ich in eine kleine Gasse schauen und sagen: ‚Oh, da habe ich etwas gefunden!‘“

Williamson arbeitete mit Meta an einem KI-Tool namens Patternboost, das diese Art der Erforschung unterstützen soll. Patternboost kann eine mathematische Idee oder Aussage aufnehmen und ähnliche Ideen oder Aussagen generieren. „Das ist so, als würde man sagen: ‚Hier sind ein paar interessante Dinge. Ich weiß nicht, was da vor sich geht, aber kannst du noch mehr interessante Dinge wie diese produzieren?‘“, erklärt er.

Solches Brainstorming ist in der Mathematik unverzichtbar. So entstehen neue Ideen. Nehmen wir zum Beispiel den Ikosaeder, sagt Williamson: „Das ist ein schönes Beispiel dafür, auf das ich in meiner eigenen Arbeit immer wieder zurückkomme.“ Der Ikosaeder ist ein 20-seitiges 3D-Objekt, bei dem alle Flächen Dreiecke sind (man denke an einen 20-seitigen Würfel). Der Ikosaeder ist das größte einer Familie von genau fünf solchen Objekten: Es gibt den Tetraeder (vier Seiten), den Würfel (sechs Seiten), den Oktaeder (acht Seiten) und den Dodekaeder (12 Seiten).

Bemerkenswert ist, dass die Tatsache, dass es genau fünf dieser Objekte gibt, von Mathematikern im antiken Griechenland bewiesen wurde. „Als dieser Satz bewiesen wurde, gab es das Ikosaeder noch nicht“, sagt Williamson. „Man kann nicht in einen Steinbruch gehen und es finden – jemand hat es in seinem Kopf entdeckt. Und das Ikosaeder hat seitdem einen tiefgreifenden Einfluss auf die Mathematik. Es beeinflusst uns auch heute noch auf sehr, sehr tiefgreifende Weise.“

Für Williamson liegt das spannende Potenzial von Tools wie Patternboost darin, dass sie Menschen dabei helfen könnten, zukünftige mathematische Objekte wie das Ikosaeder zu entdecken, die die Mathematik prägen werden. Aber so weit sind wir noch nicht. „KI kann einen sinnvollen Beitrag zu Problemen auf Forschungsebene leisten“, sagt er. „Aber wir werden in dieser Phase sicherlich nicht mit neuen Theoremen überschwemmt werden.“

Letztendlich läuft es darauf hinaus, dass Maschinen noch immer das fehlt, was man als Intuition oder kreatives Denken bezeichnen könnte. Williamson fasst es so zusammen: Wir haben jetzt KI, die Menschen schlagen kann, wenn sie die Spielregeln kennt. „Aber es ist eine Sache, wenn ein Computer Go auf übermenschlichem Niveau spielt, und eine ganz andere, wenn der Computer das Spiel Go erfindet.“

„Ich denke, das gilt auch für die höhere Mathematik“, sagt er. „Durchbrüche entstehen durch eine neue Denkweise, die dem Finden völlig neuer Züge in einem Spiel ähnelt. Und ich glaube nicht, dass wir wirklich verstehen, woher diese wirklich brillanten Züge in der höheren Mathematik kommen.“

Vielleicht sollte man KI-Tools wie Alphaevolve und Patternboost eher als Vorläufer der menschlichen Intuition betrachten. Sie können neue Wege aufzeigen und Sackgassen aufdecken, wodurch Mathematikern Monate oder Jahre an Arbeit erspart bleiben. Aber die wahren Durchbrüche werden nach wie vor aus den Köpfen der Menschen kommen, so wie es seit Jahrtausenden der Fall ist. Zumindest vorerst. „Es gibt viele Technologieunternehmen, die uns sagen, dass das nicht lange anhalten wird“, sagt Williamson. „Aber wir werden sehen.“

Dieser Artikel stammt von Will Douglas Heaven. Er ist Senior Editor bei der US-amerikanischen Ausgabe von MIT Technology Review und ist für den Bereich KI zuständig.
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren