„Fundamentales Hindernis“: Apple-Forscher belegen, dass Reasoning von ChatGPT und Co. ein leeres Versprechen ist

Immer mehr KI-Unternehmen setzen ihren Fokus auf Reasoning-Modelle, die in der Lage sein sollen, komplexe Gedankengänge zu haben. Doch selbst OpenAI musste kürzlich zugeben, dass seine Modelle durch die neue Technik häufiger halluzinieren als zuvor. Laut einem neuen Paper von Apple-Forscher:innen könnte Reasoning aber noch ein viel größeres Problem haben. Denn laut ihnen handelt es sich bisher nur um einen großen Marketing-Trick.
Wo ChatGPT, Deepseek und Claude Probleme haben
Um das herauszufinden, haben die Forscher:innen den bekannten KI-Modellen mehrere mathematische Puzzleaufgaben gestellt. Zu den getesteten Modellen zählten OpenAIs o3 mini sowie Deepseek-R1 und Claude 3.7 Sonnet. Dabei wurden jeweils die Ergebnisse des normalen KI-Modus und des Reasoning-Modus miteinander verglichen.
Zunächst stellten die Apple-Forscher:innen fest, dass die Non-Reasoning-Modelle bei leichteren Aufgaben ähnlich oder sogar besser als ihre „denkenden“ Pendants abschnitten. Erst bei mittelschweren Aufgaben zeigte sich, dass Reasoning-Modelle einen Vorteil erzielen konnten. Bei schweren und komplexen Aufgaben kam es aber zu einem Performance-Einbruch bei allen Modellen. Sie konnten in den Tests nahezu keine der schwereren Aufgaben lösen.
Scheitern bei hohem Schwierigkeitsgrad
Das galt selbst dann, wenn den Modellen der Lösungsalgorithmus für das jeweilige Puzzle gegeben wurde. Die Modelle hatten zudem Schwierigkeiten, ihren Gedankengang und Lösungswege über mehrere Puzzles hinweg beizubehalten – selbst wenn diese richtig waren. Zu den Ergebnissen schreiben die Forscher:innen: „Trotz anspruchsvoller Mechanismen zur Selbstreflexion scheitern diese Modelle daran, allgemeine Reasoning-Fertigkeiten über einen bestimmten Schwierigkeitsgrad hinweg zu entwickeln.“
Die Apple-Forscher:innen erhoffen sich, dass ihre Ergebnisse die Weiterentwicklung von Reasoning-Modellen anstoßen: „Diese Erkenntnisse fordern die aktuellen Annahmen über die Fertigkeiten von Reasoning-Modellen heraus und deuten darauf hin, dass die derzeitigen Ansätze möglicherweise auf ein fundamentales Hindernis gestoßen sind“. Allerdings geben sie zu, dass ihr Test Limitierungen aufweist. So stellen Puzzleaufgaben nur „einen kleinen Teil der Reasoning-Aufgaben“ dar.
Lokale KI: Mit diesen 5 Tools kein Problem