- Warum die ganze Aufregung?
- Warum sind Mathematik-Aufgaben an dieser Stelle so wichtig?
- Warum können Sprachmodelle so was bisher nicht?
- Wie können Computer Mathematik-Aufgaben und Logik-Rätsel knacken?
- Wie ist OpenAI das Problem angegangen?
- Ist das jetzt der Durchbruch in Richtung allgemeiner künstlicher Intelligenz (AGI)?
Project Strawberry: Kann OpenAIs KI-Modell o1 jetzt wirklich richtig denken? Und wenn ja, wie?
Warum die ganze Aufregung?
Das neue KI-Modell von OpenAI mit der eher nüchternen Bezeichnung o1 schlägt gerade ziemlich hohe Wellen. Die KI kann sehr viel besser logische Schlüsse ziehen als andere große Sprachmodelle. Der KI-Spezialist Ethan Mollick präsentiert in seinem populären Newsletter One Useful Thing ein besonders beeindruckendes Beispiel: Er ließ die KI ein Kreuzworträtsel lösen.
In einem ausführlichen Blogbeitrag verwies OpenAI aber insbesondere auf die Fähigkeit des Modells, Mathematik-Aufgaben zu lösen. So löste das Modell die Aufgaben der American Invitational Mathematics Examination (AIME), ein Qualifikations-Wettbewerb für die internationale Mathematik-Olympiade der Schüler:innen, mit einer Zuverlässigkeit von rund 83 Prozent. Das bislang beste Modell von OpenAI, GPT-4o kommt bei dem Test gerade mal auf etwa 15 Prozent.
Warum sind Mathematik-Aufgaben an dieser Stelle so wichtig?
Dass ausgerechnet das Lösen von Mittelstufenmathematik ein Ausweis besonderer maschineller Intelligenz sein soll, klingt zunächst verblüffend. Doch Mathematik ist der Maßstab für logisches Denken und eine generative Künstliche Intelligenz, die nicht nur zusammenhängende Sätze formulieren, sondern auch logisch denken kann, wäre tatsächlich eine Sensation. Eine solche Maschine könnte nämlich lernen, komplexe Aufgaben nur anhand von sehr allgemein formulierten Anweisungen autonom zu erledigen. Sie könnte Chancen und Risiken abwägen und abstrakte Ideen verstehen, die bislang nur uns Menschen vorbehalten sind. Sie könnte sogar dabei helfen, die großen Probleme unserer Zeit zu meistern.
Warum können Sprachmodelle so was bisher nicht?
Sprachmodelle sind eigentlich nur dazu da, das wahrscheinlichste nächste Wort in einem Text zu bestimmen. Dass ChatGPT, Claude und Co. trotzdem so verblüffend menschlich wirken und mittlerweile erstaunlich viel können, hängt mit riesigen Trainingsdatensätzen, cleveren Optimierungsstrategien und viel Feinabstimmung der Modelle zusammen.
Es gibt aber immer noch große Probleme:
- Sprachmodelle arbeiten sequenziell von Input zu Output. Das heißt, sie erzeugen ihre Antworten Wort für Wort können aber ihre Antworten nicht rückwirkend verändern. Sie sind deshalb nicht für Aufgaben gemacht, die gedankliches Zwischenspeichern und das Verstehen nicht-linearer Zusammenhänge erfordern.
- Sprachmodelle arbeiten statistisch. Logische Zusammenhänge, die Menschen explizit kennen und benutzen, sind für Sprachmodelle nur implizit vorhanden – wenn sie in den Trainingsdaten vorkommen.
- Sprachmodelle halluzinieren. Besonders wenn in den Trainingsdaten nur wenig zu dem Input-Prompt zu finden ist, den sie ergänzen sollen, produzieren sie Output, der zwar irgendwie richtig aussieht, inhaltlich aber komplett falsch ist.
Wie können Computer Mathematik-Aufgaben und Logik-Rätsel knacken?
Diese Frage beschäftigte die KI-Forschung schon in den 1960er Jahren. Damals populär war die Idee der symbolischen künstlichen Intelligenz. Die Idee war es, das menschliche Wissen über ein bestimmtes Problem in eine formale und maschinenlesbare Form zu bringen, etwa in Form eines Suchbaums. Der besteht aus Knoten, die durch Kanten miteinander verbunden sind – und zwar immer dann, wenn sich einer der Zustände des Problems durch Anwendung der jeweiligen Regeln in einen zweiten Zustand überführen lässt. Dem Computerprogramm Logic Theorist gelang es auf diese Art bereits im Jahr 1956, 38 der ersten 52 Theoreme der Principia Mathematica zu beweisen. In dem dreibändigen Werk hatten die Mathematiker Alfred North Whitehead und Bertrand Russell versucht, die gesamte Mathematik aus so wenigen Prämissen wie möglichen abzuleiten. Im Wesentlichen beruhte das darauf, dass die Software einen durchgehenden Weg zwischen dem Theorem und einem zuvor bereits bewiesenen Punkt in dem Suchbaum fand.
Wie ist OpenAI das Problem angegangen?
Wissen wir nicht genau. Es gibt bisher nur wenige Details, die OpenAI veröffentlicht hat. Klar ist bisher nur, dass OpenAI ein großes Sprachmodell aufgebohrt hat, um das Problem zu lösen – und dass sie zwei Techniken verwenden: Chain of Thought (CoT) und Verstärkungslernen.
CoT bedeutet, die Maschine Schritt für Schritt arbeiten zu lassen – etwa so, wie man eine Rechenaufgabe mithilfe des Dreisatzes löst – wir wissen das, dann folgt daraus dieses, dann jenes. Die Technik an sich ist nicht neu. Es ist bekannt, dass große Sprachmodelle so genauere Ergebnisse liefern. In dieser Podcast-Folge (siehe unten) hatten wir bereits im Vorfeld der Veröffentlichung über die Ansätze von Project Strawberry spekuliert.
Verstärkungslernen bedeutet, dass man das Modell verschiedene Lösungswege durchprobieren lässt, die zunächst zufällig gewählt werden. Kommt das Modell dabei auf die richtige Lösung, erhalten die Zwischenschritte auf diesem Weg einen höheren Wahrscheinlichkeitswert.
Subbarao Kambhampati von der Arizona Stae University spekuliert in einem Post auf X darüber, wie die beiden Komponenten ineinander greifen könnten: Vermutlich erzeugt das Sprachmodell, um ein gegebenes Problem zu lösen, eine große Zahl von CoT-Prompts und hangelt sich dann Stück für Stück weiter durch – probiert also alle möglichen Lösungswege aus. In einem speziellen Training werden dann die richtigen Pfade höher bewertet. Das alles wird im Training – wahrscheinlich auch mithilfe synthetischer Daten – zig Milliarden Mal wiederholt, bis das Modell genug gelernt hat.
Im produktiven Betrieb erzeugt das Modell ebenfalls aus dem Prompt eine Menge interner CoT-Prompts und wählt dann die Lösungswege, die laut seines Trainings am ehesten zur Lösung führen müssten. Davon wählt es dann – vermutlich – den kürzesten aus und zeigt ihn auszugsweise dem User.
Das bedeutet allerdings, dass es auch hier wieder keine Garantie dafür gibt, dass die Lösung tatsächlich richtig ist. Es gibt keine echte, logische oder mathematische Überprüfung der Lösung. Das Modell kann immer noch halluzinieren.
Ist das jetzt der Durchbruch in Richtung allgemeiner künstlicher Intelligenz (AGI)?
Nein. Zwar sind sich die Expert:innen nicht einmal einig, was eine echte AGI eigentlich sein soll. Dass Project Strawberry so etwas ist, behauptet aber nicht einmal OpenAI.
Ah, „Project Strawberry“, der Name klingt ja schon nach einer süßen Versuchung. Aber kann OpenAIs KI-Modell o1 jetzt wirklich *denken*? Naja, wenn du „denken“ als „eine Menge Daten crunchen und dann so tun, als wäre es clever“ definierst, dann ja, absolut!
Wie macht es das? Ganz einfach: Es schnappt sich Millionen von Texten, wirft sie in einen riesigen Mixer aus Algorithmen, schüttelt das Ganze ordentlich durch und spuckt dann eine Antwort aus, die so klingt, als hätte es eine tiefe philosophische Überlegung gegeben. Aber tief im Inneren ist es eigentlich nur ein sehr enthusiastischer Papagei auf Koffein.
Also, ob es wirklich denkt? Sagen wir mal so: Wenn o1 beim nächsten Brainstorming Kaffee kocht, bin ich bereit, das ernsthaft zu diskutieren. Bis dahin bleibt es bei einem echt cleveren Taschenrechner.