Neuer KI-Agent von Google Deepmind geht die großen Probleme der Mathematik und Informatik an

(Bild: Poetra.RH/Shutterstock)
Die Alphabet-Tochter Google Deepmind hat zum wiederholten Mal große Sprachmodelle eingesetzt, um neuartige Lösungen für langjährige Probleme in der Mathematik und Informatik zu finden. Dieses Mal könnte das Unternehmen zeigen, dass der Ansatz nicht nur theoretische Aufgaben lösen kann, sondern auch eine Reihe wichtiger Prozesse in der realen Welt verbessert. Das neue Werkzeug nennt sich Alphaevolve und nutzt die Gemini-2.0-Familie von Googles Large Language Models (LLMs), um Programmcode für eine Vielzahl unterschiedlicher Aufgaben zu erstellen.
LLMs sind dafür bekannt, dass sie beim Coding eher auf gut Glück vorgehen. Der Clou von Alphaevolve ist, dass es jeden Vorschlag von Gemini bewertet, die schlechten verwirft und die guten in einem iterativen Prozess optimiert – bis der bestmögliche Algorithmus entstanden ist. In vielen Fällen seien die Ergebnisse effizienter oder genauer als die besten bestehenden – also von Menschen entwickelten – Lösungen, so das Forscherteam.
Google KI-Agent bereits bei Google-Rechenzentren im Einsatz
„Man kann sich das wie eine Art Super-Coding-Agent vorstellen“, sagt Pushmeet Kohli, Vizepräsident bei Google Deepmind und Leiter des „AI for Science“-Teams. „Es schlägt nicht nur ein Stück Code oder eine Änderung vor, sondern liefert tatsächlich ein Ergebnis, das vielleicht niemandem zuvor bewusst war.“ Alphaevolve soll unter anderem eine Möglichkeit gefunden haben, die Software zu verbessern, mit der Google seine vielen Millionen Server weltweit mit Aufgaben versorgt und koordiniert. Tatsächlich läuft der KI-Code bereits: Seit über einem Jahr ist er laut DeepMind in den eigenen Rechenzentren eingesetzt. Das sind immerhin 0,7 Prozent der gesamten Computing-Ressourcen, über die Alphabet verfügt. Das mag nach wenig klingen, doch die Größenordnungen an Rechenleistung, die der gesamte Konzern zur Verfügung hat, sind enorm.
Jakob Moosbauer, Mathematiker an der University of Warwick in Großbritannien, beeindruckt das Projekt. Er sagt, dass Alphaevolve besonders leistungsstark sein könne, weil es nach Algorithmen sucht, die bestimmte Lösungen hervorbringen – anstatt nur nach der Lösung selbst zu suchen. „Dadurch lässt sich der Ansatz auf ein breites Spektrum von Problemen anwenden“, sagt er. KI werde so zu einem Werkzeug, das in der Mathematik und Informatik unverzichtbar sei.
Alphaevolve setzt jedoch nur Arbeiten fort, die Google Deepmind seit Jahren verfolgt. Die Vision der Alphabet-Tochter ist, dass KI dazu beitragen kann, das Wissen der Menschheit in den Naturwissenschaften voranzubringen. Im Jahr 2022 entwickelte das Unternehmen Alphatensor, ein Modell, das einen schnelleren Weg zur Lösung von Matrixmultiplikationen fand – ein grundlegendes Problem der Informatik. Dabei wurde ein mehr als 50 Jahre alter Rekord gebrochen. Im Jahr 2023 stellte das Unternehmen dann Alphadev vor, das schnellere Wege zur Durchführung einer Reihe grundlegender Berechnungen liefert, die von Rechnern täglich billionenfach ausgeführt werden. Alphatenor und Alphadev verwandeln mathematische Probleme dabei in eine Art Spiel und suchen dann nach den richtigen Zügen.
Das Überleben der Stärksten
Funsearch, das Ende 2023 auf den Markt kam, ersetzte die gamifizierte KI durch LLMs, die Code generieren können. Da LLMs eine Vielzahl von Aufgaben durchführen können, kann Funsearch eine größere Bandbreite an Problemen lösen als seine Vorgänger, die nur für eine Art von Spiel trainiert waren. Das Tool wurde bereits verwendet, um bekannte Probleme in der sogenannten reinen Mathematik zu knacken. Alphaevolve ist nun die nächste Generation von Funsearch. Anstatt wie Funsearch kurze Code-Schnipsel zur Lösung eines bestimmten Problems zu erstellen, kann es Programme mit Hunderten Zeilen Code produzieren. Dadurch ist es für eine viel größere Bandbreite von Problemen einsetzbar.
Theoretisch könnte Alphaevolve auf jedes Problem angewendet werden, das sich in Programmcode beschreiben lässt und dessen Lösung von einem Computer bewertet werden können. „Algorithmen steuern die Welt um uns herum, daher sind die Auswirkungen enorm“, sagt Matej Balog, Forscher bei Google DeepMind und Leiter des Teams für die Suche nach neuen Algorithmen. Alphaevolve kann zunächst wie jedes andere LLM angesteuert werden: Man gibt ihm eine Beschreibung des Problems und zusätzliche Hinweise, wie beispielsweise frühere Lösungen. Alphaevolve lässt dann Gemini 2.0 Flash (die kleinste und schnellste Version des aktuellen Flaggschiff-LLMs von Google) mehrere Code-Blöcke zur Lösung des Problems generieren.
Anschließend werden diese Lösungsvorschläge getestet, um ihre Genauigkeit und Effizienz zu überprüfen, und anhand einer Reihe relevanter Metriken bewertet. Liefert der Code das richtige Ergebnis? Läuft er schneller als frühere Lösungen? Alphaevolve wählt dann die besten Lösungen aus dem aktuellen Lösungsstapel aus und fordert Gemini auf, diese weiter zu verbessern. Manchmal greift Alphaevolve dabei auch auf eine frühere Lösung zurück, um zu verhindern, dass Gemini in eine Sackgasse gerät. Wenn es nicht weiterkommt, kann Alphaevolve zudem Gemini 2.0 Pro hinzuziehen, das leistungsstärkste LLM von Alphabet. Die Idee dahinter ist, mit dem schnelleren Flash zunächst viele Problemlösungen zu generieren und bei Bedarf Lösungen aus dem langsameren Pro hinzuzufügen. Diese Runden der Code-Generierung, Code-Bewertung und Code-Neugenerierung werden so lange fortgesetzt, bis Gemini nichts Besseres mehr als die bereits vorhandenen Routinen finden kann.
Das Team testete Alphaevolve an einer Reihe verschiedener Probleme. Sie untersuchten beispielsweise erneut die Matrixmultiplikation, um zu sehen, wie sich ein Allzweckwerkzeug wie Alphaevolve im Vergleich zum spezialisierten Alphatensor schlägt. Die Matrixmultiplikation ist eine grundlegende Rechenweise, die vielen Anwendungen zugrunde liegt, von der KI bis zur Computergrafik. Doch niemand kennt bislang den schnellsten Weg, sie durchzuführen. „Es ist eigentlich unglaublich, dass das immer noch eine offene Frage ist“, sagt Balog. Das Team gab Alphaevolve deshalb eine Beschreibung des Problems und ein Beispiel für einen Standardalgorithmus zu dessen Lösung. Das Werkzeug erzeugte daraufhin nicht nur neue Algorithmen, die 14 verschiedene Matrixgrößen schneller berechnen konnten als alle bisherigen Ansätze, sondern verbesserte auch das Rekordergebnis von Alphatensor bei der Multiplikation zweier 4×4-Matrizen.
Probleme aus der Praxis
Alphaevolve bewertete dabei satte 16.000 von Gemini vorgeschlagene Kandidaten, um die beste Lösung zu finden, doch das war immer noch effizienter als Alphatensor, sagt Balog. Die Lösung von Alphatensor funktionierte außerdem nur, wenn eine Matrix mit Nullen und Einsen – also Binärcode – gefüllt war. Alphaevolve löst das Problem auch mit anderen Zahlen. „Das Ergebnis bei der Matrixmultiplikation ist beeindruckend“, sagt Mathematiker Moosbauer. „Der neue Algorithmus hat das Potenzial, Berechnungen in der Praxis zu beschleunigen.“ Manuel Kauers, Mathematiker an der Johannes-Kepler-Universität in Linz, stimmt seinem Kollegen zu: „Die Verbesserung bei der Matrixmultiplikation dürfte praktische Relevanz haben.“
Zufälligerweise haben Kauers und ein Mitarbeiter gerade selbst mit einer anderen Berechnungsmethode einige der von Alphaevolve erzielten Geschwindigkeitssteigerungen erzielt. Ihr noch nicht von anderen Forschern begutachtetes Paper ist gerade online erschienen. „Es ist großartig zu sehen, dass wir beim Verständnis der Matrixmultiplikation vorankommen“, sagt Kauers. „Jede Technik, die dabei hilft, ist ein willkommener Beitrag zu diesen Bemühungen.“
Die Matrixmultiplikation war nur ein erster Durchbruch bei der Verwendung von Alphaevolve. Insgesamt testete Google DeepMind das System an mehr als 50 verschiedenen Arten bekannter mathematischer Probleme, darunter die Fourier-Analyse (die Mathematik hinter der Datenkomprimierung, die für Anwendungen wie Video-Streaming unerlässlich ist), das Problem der minimalen Überlappung (ein offenes Problem der Zahlentheorie, das 1955 vom Mathematiker Paul Erdős vorgeschlagen wurde) und sogenannte Kusszahlen (ein von Isaac Newton entdecktes Problem, das Anwendungen in der Materialwissenschaft, Chemie und Kryptografie hat). Alphaevolve erreichte in immerhin 75 Prozent der Fälle die besten bestehenden Lösungen und fand in 20 Prozent der Fälle auch bessere Lösungen. Anschließend wandte Google DeepMind Alphaevolve auf eine Reihe von Problemen aus der Praxis an. Das Tool entwickelte nicht nur einen effizienteren Algorithmus für die Verwaltung von Ressourcen in Rechenzentren, sondern entdeckte auch einen Weg, den Stromverbrauch der Tensor-KI-Chips von Google zu senken.
Alphaevolve fand außerdem einen Weg, das Training von Gemini selbst zu beschleunigen, indem es einen effizienteren Algorithmus für die Verwaltung einer bestimmten Art von Berechnungen entwickelte, die im LLM-Trainingsprozess verwendet werden. Die Alphabet-Tochter plant nun, die potenziellen Anwendungsmöglichkeiten seines Tools weiter zu untersuchen. Eine Einschränkung besteht derzeit noch darin, dass Alphaevolve nicht für Probleme verwendet werden kann, deren Lösungen von einer Person bewertet werden müssen. Das sind beispielsweise Laborexperimente, die interpretationsbedürftig sind. Moosbauer weist weiterhin darauf hin, dass Alphaevolve zwar beeindruckende neue Ergebnisse für eine Vielzahl von Problemen liefern kann, aber nur wenig theoretische Einblicke in seine Herangehensweise gibt. Das ist ein Nachteil, wenn es darum geht, das menschliche Wissen zu erweitern – und potenziell ein Sicherheitsproblem. Dennoch werden Tools wie Alphaevolve die Arbeitsweise von Forschern verändern. „Ich glaube nicht, dass wir schon am Ende der Fahnenstange sind“, sagt Kohli vom Google-DeepMind-Team. „Wir könnten noch viel weitergehen, was die Leistungsfähigkeit dieses Ansatzes betrifft.“