Anzeige
Anzeige
MIT Technology Review Analyse

Project Strawberry: Kann OpenAIs KI-Modell o1 jetzt wirklich richtig denken? Und wenn ja, wie?

OpenAI hat ein neues Sprachmodell veröffentlicht, das logische Schlüsse ziehen und mathematische Rätsel lösen kann. Die wichtigsten Fragen und Antworten zu dem Modell, das GPT-4o alt aussehen lässt.

Von Wolfgang Stieler
4 Min.
Artikel merken
Anzeige
Anzeige

Viel Aufregung um OpenAIs neues Modell, das als Project Strawberry bekannt ist: Was steckt dahinter? (Foto:
TY Lim / Shutterstock)

Warum die ganze Aufregung?

Das neue KI-Modell von OpenAI mit der eher nüchternen Bezeichnung o1 schlägt gerade ziemlich hohe Wellen. Die KI kann sehr viel besser logische Schlüsse ziehen als andere große Sprachmodelle. Der KI-Spezialist Ethan Mollick präsentiert in seinem populären Newsletter One Useful Thing ein besonders beeindruckendes Beispiel: Er ließ die KI ein Kreuzworträtsel lösen.

Anzeige
Anzeige

In einem ausführlichen Blogbeitrag verwies OpenAI aber insbesondere auf die Fähigkeit des Modells, Mathematik-Aufgaben zu lösen. So löste das Modell die Aufgaben der American Invitational Mathematics Examination (AIME), ein Qualifikations-Wettbewerb für die internationale Mathematik-Olympiade der Schüler:innen, mit einer Zuverlässigkeit von rund 83 Prozent. Das bislang beste Modell von OpenAI, GPT-4o kommt bei dem Test gerade mal auf etwa 15 Prozent.

Warum sind Mathematik-Aufgaben an dieser Stelle so wichtig?

Dass ausgerechnet das Lösen von Mittelstufenmathematik ein Ausweis besonderer maschineller Intelligenz sein soll, klingt zunächst verblüffend. Doch Mathematik ist der Maßstab für logisches Denken und eine generative Künstliche Intelligenz, die nicht nur zusammenhängende Sätze formulieren, sondern auch logisch denken kann, wäre tatsächlich eine Sensation. Eine solche Maschine könnte nämlich lernen, komplexe Aufgaben nur anhand von sehr allgemein formulierten Anweisungen autonom zu erledigen. Sie könnte Chancen und Risiken abwägen und abstrakte Ideen verstehen, die bislang nur uns Menschen vorbehalten sind. Sie könnte sogar dabei helfen, die großen Probleme unserer Zeit zu meistern.

Anzeige
Anzeige

Warum können Sprachmodelle so was bisher nicht?

Sprachmodelle sind eigentlich nur dazu da, das wahrscheinlichste nächste Wort in einem Text zu bestimmen. Dass ChatGPT, Claude und Co. trotzdem so verblüffend menschlich wirken und mittlerweile erstaunlich viel können, hängt mit riesigen Trainingsdatensätzen, cleveren Optimierungsstrategien und viel Feinabstimmung der Modelle zusammen.

Es gibt aber immer noch große Probleme:

Anzeige
Anzeige
  • Sprachmodelle arbeiten sequenziell von Input zu Output. Das heißt, sie erzeugen ihre Antworten Wort für Wort können aber ihre Antworten nicht rückwirkend verändern. Sie sind deshalb nicht für Aufgaben gemacht, die gedankliches Zwischenspeichern und das Verstehen nicht-linearer Zusammenhänge erfordern.
  • Sprachmodelle arbeiten statistisch. Logische Zusammenhänge, die Menschen explizit kennen und benutzen, sind für Sprachmodelle nur implizit vorhanden – wenn sie in den Trainingsdaten vorkommen.
  • Sprachmodelle halluzinieren. Besonders wenn in den Trainingsdaten nur wenig zu dem Input-Prompt zu finden ist, den sie ergänzen sollen, produzieren sie Output, der zwar irgendwie richtig aussieht, inhaltlich aber komplett falsch ist.

Wie können Computer Mathematik-Aufgaben und Logik-Rätsel knacken?

Diese Frage beschäftigte die KI-Forschung schon in den 1960er Jahren. Damals populär war die Idee der symbolischen künstlichen Intelligenz. Die Idee war es, das menschliche Wissen über ein bestimmtes Problem in eine formale und maschinenlesbare Form zu bringen, etwa in Form eines Suchbaums. Der besteht aus Knoten, die durch Kanten miteinander verbunden sind – und zwar immer dann, wenn sich einer der Zustände des Problems durch Anwendung der jeweiligen Regeln in einen zweiten Zustand überführen lässt. Dem Computerprogramm Logic Theorist gelang es auf diese Art bereits im Jahr 1956, 38 der ersten 52 Theoreme der Principia Mathematica zu beweisen. In dem dreibändigen Werk hatten die Mathematiker Alfred North Whitehead und Bertrand Russell versucht, die gesamte Mathematik aus so wenigen Prämissen wie möglichen abzuleiten. Im Wesentlichen beruhte das darauf, dass die Software einen durchgehenden Weg zwischen dem Theorem und einem zuvor bereits bewiesenen Punkt in dem Suchbaum fand.

Wie ist OpenAI das Problem angegangen?

Wissen wir nicht genau. Es gibt bisher nur wenige Details, die OpenAI veröffentlicht hat. Klar ist bisher nur, dass OpenAI ein großes Sprachmodell aufgebohrt hat, um das Problem zu lösen – und dass sie zwei Techniken verwenden: Chain of Thought (CoT) und Verstärkungslernen.

Anzeige
Anzeige

CoT bedeutet, die Maschine Schritt für Schritt arbeiten zu lassen – etwa so, wie man eine Rechenaufgabe mithilfe des Dreisatzes löst – wir wissen das, dann folgt daraus dieses, dann jenes. Die Technik an sich ist nicht neu. Es ist bekannt, dass große Sprachmodelle so genauere Ergebnisse liefern. In dieser Podcast-Folge (siehe unten) hatten wir bereits im Vorfeld der Veröffentlichung über die Ansätze  von Project Strawberry spekuliert.

Verstärkungslernen bedeutet, dass man das Modell verschiedene Lösungswege durchprobieren lässt, die zunächst zufällig gewählt werden. Kommt das Modell dabei auf die richtige Lösung, erhalten die Zwischenschritte auf diesem Weg einen höheren Wahrscheinlichkeitswert.

Subbarao Kambhampati von der Arizona Stae University spekuliert in einem Post auf X darüber, wie die beiden Komponenten ineinander greifen könnten: Vermutlich erzeugt das Sprachmodell, um ein gegebenes Problem zu lösen, eine große Zahl von CoT-Prompts und hangelt sich dann Stück für Stück weiter durch – probiert also alle möglichen Lösungswege aus. In einem speziellen Training werden dann die richtigen Pfade höher bewertet. Das alles wird im Training – wahrscheinlich auch mithilfe synthetischer Daten – zig Milliarden Mal wiederholt, bis das Modell genug gelernt hat.

Anzeige
Anzeige

Im produktiven Betrieb erzeugt das Modell ebenfalls aus dem Prompt eine Menge interner CoT-Prompts und wählt dann die Lösungswege, die laut seines Trainings am ehesten zur Lösung führen müssten. Davon wählt es dann – vermutlich – den kürzesten aus und zeigt ihn auszugsweise dem User.

Das bedeutet allerdings, dass es auch hier wieder keine Garantie dafür gibt, dass die Lösung tatsächlich richtig ist. Es gibt keine echte, logische oder mathematische Überprüfung der Lösung. Das Modell kann immer noch halluzinieren.

Ist das jetzt der Durchbruch in Richtung allgemeiner künstlicher Intelligenz (AGI)?

Nein. Zwar sind sich die Expert:innen nicht einmal einig, was eine echte AGI eigentlich sein soll. Dass Project Strawberry so etwas ist, behauptet aber nicht einmal OpenAI.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare (1)

Community-Richtlinien

Predrag Gasic

Ah, „Project Strawberry“, der Name klingt ja schon nach einer süßen Versuchung. Aber kann OpenAIs KI-Modell o1 jetzt wirklich *denken*? Naja, wenn du „denken“ als „eine Menge Daten crunchen und dann so tun, als wäre es clever“ definierst, dann ja, absolut!

Wie macht es das? Ganz einfach: Es schnappt sich Millionen von Texten, wirft sie in einen riesigen Mixer aus Algorithmen, schüttelt das Ganze ordentlich durch und spuckt dann eine Antwort aus, die so klingt, als hätte es eine tiefe philosophische Überlegung gegeben. Aber tief im Inneren ist es eigentlich nur ein sehr enthusiastischer Papagei auf Koffein.

Also, ob es wirklich denkt? Sagen wir mal so: Wenn o1 beim nächsten Brainstorming Kaffee kocht, bin ich bereit, das ernsthaft zu diskutieren. Bis dahin bleibt es bei einem echt cleveren Taschenrechner.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige