Studie entlarvt, warum selbst GPT-4 und Gemini bei dieser einfachen Logikfrage scheitern

Die besten KI-Tools scheinen von einer einfachen Logikfrage überfordert zu sein – oder doch nicht? (Foto: Koshiro K/Shutterstock)
Spätestens seit dem Erscheinen von ChatGPT haben die Fähigkeiten von KI-Modellen Beobachter:innen immer wieder überrascht. So soll der OpenAI-Chatbot Expert:innen in puncto Finanzanalysen übertreffen können. In vielen Bereichen, so die Befürchtung, könnte KI Menschen bald überflüssig machen.
Eklatante Schwächen bei Mathe und Logik
Allerdings zeigen sich neben den Stärken immer wieder auch eklatante Schwächen der großen Sprachmodelle, insbesondere was Mathematik und Logik angeht. Eine Studie der KI-Forschungsorganisation Laion hat jetzt ein besonders seltsames Versagen auch der besten KI-Tools aufgedeckt – bei einer simplen Logikfrage.
Konkret geht es um das sogenannte „Alice im Wunderland“-Problem. Dabei handelt es sich um folgende, eigentlich leicht zu beantwortende Frage: „Alice hat [X] Brüder und [Y] Schwestern. Wie viele Schwestern hat Alices Bruder?“ Als X und Y haben die Forscher:innen jeweils verschiedene Werte eingesetzt.
„Alice im Wunderland“-Problem zum Nachrechnen
Nehmen wir einmal ein Beispiel, in dem Alice zwei Brüder und drei Schwestern hätte. Die Frage wäre dann, wie viele Schwestern jeder der beiden Brüder von Alice jeweils hätte. Wer kurz darüber nachdenken will, liest jetzt nicht weiter.
Die Lösung ist in diesem Fall: vier. Denn Alice ist ja auch eine Schwester ihrer Brüder. Einfach gesagt, rechnet man bei jeder Variante dieser Frage einfach plus eins (Alice), wenn es um die Zahl der Schwestern geht.
Die befragten KI-Modelle – untersucht wurden unter anderem OpenAIs GPT-3, GPT-4 und GPT-4o, Anthropics Claude 3 Opus, Googles Gemini sowie Metas Llama-Modelle – hatten laut den Forscher:innen alle Probleme mit der richtigen Lösung. Noch verrückter: Die Tools sollen in vielen Fällen auf der falschen Lösung beharrt haben, auch wenn sie auf den korrekten Lösungsweg gestoßen wurden.
KI-Modelle beharren auf falscher Lösung
„Das Scheitern ist dramatisch, da die Modelle auch ein starkes Übervertrauen in ihre falschen Lösungen zeigen und gleichzeitig oft unsinnige Erklärungen liefern, um die Richtigkeit ihrer offensichtlich falschen Antworten zu rechtfertigen, damit sie plausibel klingen“, so die Forscher:innen in der Studie.
Im Vergleich konnte demnach lediglich das neue OpenAI-Modell GPT-4o eine befriedigende Erfolgsrate aufweisen: 65 Prozent. Claude 3 Opus antwortete dagegen in nur 43 Prozent der Fälle richtig, Googles Gemini Pro gar nur in 0,8 Prozent der Fälle.
Was unser KI-Kurztest zeigt
In unserem Kurztest lag ChatGPT mit GPT-4o zwar im ersten Lösungsversuch falsch, ließ sich aber auf Nachfrage davon überzeugen, dass Alice als zusätzliche Schwester zur Zahl der Schwestern hinzuzurechnen sei. Gemini derweil gab schon im ersten Versuch die richtige Antwort – nachdem sich die KI, unaufgefordert, während der Beantwortung selbst korrigierte.
Google Gemini zum „Alice im Wunderland“-Problem (Alice, 2 Brüder, 3 Schwestern): „Alice’s brother has 3 sisters. Even though we know Alice has 3 sisters, we need to consider that Alice herself is also a sister to her brothers. So, her brothers have Alice and her 3 other sisters, for a total of 3+1 = 4 sisters.“
Insofern sollte bei der Beurteilung der Studienergebnisse auch in Betracht gezogen werden, dass die KI-Chatbots sich stetig weiterentwickeln und Logikfragen wie das „Alice im Wunderland“-Problem bald kein Problem mehr darstellen könnten. Die Laion-Studie ist jedenfalls noch nicht von anderen Wissenschaftler:innen begutachtet worden (Peer-Review).
Offizielle Erfolgsraten geschönt?
Es ist allerdings nicht das erste Mal, dass die von den KI-Firmen selbst angegebenen Erfolgsraten – bei Logikfragen sollen diese zwischen 64 und 88 Prozent liegen – infrage gestellt werden, wie Futurism schreibt. Auch die Untersuchungen anderer Forscher:innen wie jene von Eric Martínez vom MIT wecken demnach Zweifel an den offiziell angegebenen KI-Benchmarks.