Warum das KI-Modell o3 von OpenAI so hohe Kosten verursacht – und welche Leistungen es verspricht
Seit OpenAI Ende Dezember seine neuesten KI-Modelle o3 Mini und o3 vorgestellt hat, kocht die Gerüchteküche. Denn die Modelle haben einen der derzeit schwierigsten Tests für Künstliche Intelligenz aus dem Abstract Reasoning Corpus (ARC) – den sogenannten ARC-Test – zu 85 Prozent gelöst. Das ist ein echter Durchbruch, denn die besten Programme schafften bisher nur rund 35 Prozent.
ARC ist für große Sprachmodelle besonders schwierig, denn die Aufgabe besteht darin, anhand von zwei Beispielen zu erkennen, nach welchen Regeln abstrakte grafische Muster sich verändern – und diese Regeln dann auf ein drittes Muster richtig anzuwenden. Allerdings hat o3 bisher nur einen Teil der ARC-Puzzels bearbeitet.
Und dabei hat die KI ziemlich viel Rechenzeit verbraten – und dementsprechende hohe Kosten verursacht – „tausende von US-Dollar“ pro Aufgaben, wie die Initiatoren des Preises schreiben. Noch hat OpenAI weder Preise für o3 veröffentlicht, noch ein Datum für die allgemeine Markteinführung. Doch im Internet wird heftig darüber spekuliert, ob ein Abo des neuen Modells dann wohl nicht nur 200 Dollar pro Monat kosten würde – wie aktuell bei o1 – sondern eher 2.000 Dollar oder mehr. Wäre o3 diesen Preis wirklich wert?
Wie das KI-Modell o3 (wahrscheinlich) funktioniert
Wie das KI-Modell o3 tatsächlich funktioniert, darüber kann man nur spekulieren. Denn bisher hat OpenAI nichts über die Arbeitsweise seines Modells veröffentlicht.
Klar ist nur, dass es sich nicht einfach um ein noch größeres Modell handelt. Lange hatten die Vertreter:innen der sogenannten „Skalierungshypothese“ – allen voran OpenAI – darauf gesetzt, dass größere KI-Modelle, die mit noch mehr Daten als bisher trainiert werden, auch immer leistungsfähiger werden. Nun scheint die Skalierung aber an Grenzen zu kommen. US-Medien berichten unter Berufung auf anonyme Quellen bei OpenAI, dass der Leistungssprung bei der nächsten Modellgeneration – also GPT5 und folgende – kleiner ausfallen wird. Ähnliches scheint auch für Google zu gelten. Als ein Grund dafür wird der Mangel an ausreichenden, guten Trainingsdaten genannt.
Fortschritt der KI-Modelle: Lösungen in kleinen Schritten
Die KI-Branche regierte darauf mit einer Strategie, die unter dem Schlagwort „test-time compute“ bekannt geworden ist. Diese Strategie greift eine zentrale Schwäche großer Sprachmodelle auf: Sie berechnen immer das nächste, zum Input passende Token, dann hängen sie den Output vorne an den Prompt und wiederholen die Prozedur. Das funktioniert zwar für Texte, aber nicht für komplexe Probleme, bei denen die KI schrittweise mögliche Lösungswege ausprobiert und wenn sie in eine Sackgasse gerät, wieder neu ansetzen müsste.
Modelle wie o3 oder Gemini 2 berechnen zunächst Teillösungen, deren Qualität sie dann intern überprüfen, bevor sie mit dem nächsten Schritt weitermachen. Gibt man so einem Modell also zum Beispiel eine Programmieraufgabe, könnte es diese Aufgabe zunächst in Unterprobleme zerlegen. Dann erstellt es den Code für das erste Unterproblem und prüft, ob der überhaupt lauffähig ist. Erst dann geht es weiter. Um die bestmögliche Lösung zu finden, verfolgen die Modelle dabei zig verschiedene Lösungswege und wählen dann den besten aus. Das funktioniert natürlich nicht nur für Programmieraufgaben.
Subbarao Kambhampati von der Arizona State University erklärt in einem Post auf X, wie das ablaufen könnte: Vermutlich erzeugt das Sprachmodell, um ein gegebenes Problem zu lösen, eine große Zahl von „Gedankenketten“ – sogenannten „Chain of Thoughts“ – mit denen das Problem Schritt für Schritt durchgespielt wird.
Der Output eines Teilschritts wird dann im nächsten Teilschritt als Input mit verwendet. So hangelt sich das Modell dann Stück für Stück weiter durch und probiert eine Vielzahl möglicher Lösungen parallel nebeneinander durch. In einem speziellen Training werden dann die von Menschen als richtig markierten Lösungswege höher bewertet. Das alles wird in einem Training – wahrscheinlich auch mithilfe synthetischer Daten – zig Milliarden Mal wiederholt.
Im produktiven Betrieb erzeugt das Modell dann die Lösungswege, die laut seines Trainings am ehesten zur Lösung führen müssten. Davon wählt es dann – vermutlich – den kürzesten aus und zeigt ihn auszugsweise dem User.
Teuer und leider immer noch nicht verlässlich
Das würde erklären, warum diese speziellen Modelle nicht nur im Training, sondern auch im Betrieb so teuer sind: Eine Anfrage wird intern in tausende leicht verschiedener Teilanfragen umgewandelt, die die User:innen aber nie zu Gesicht bekommen. Laut OpenAI kann o3 den Rechenaufwand zudem automatisch an die Komplexität der gestellten Aufgabe anpassen.
Im Kern arbeitet allerdings immer noch ausschließlich ein großes Sprachmodell an der Lösung des gestellten Problems. Das bedeutet, dass es auch bei o3 keine Garantie dafür gibt, dass die Lösung tatsächlich richtig ist. Es gibt keine echte, logische oder mathematische Überprüfung der Lösung. Das Modell läuft immer noch Gefahr, zu halluzinieren.