Anzeige
Anzeige
News

Studie entlarvt, warum selbst GPT-4 und Gemini bei dieser einfachen Logikfrage scheitern

Eine neue Studie weckt erhebliche Zweifel daran, ob große KI-Sprachmodelle wie OpenAIs GPT-4 oder Googles Gemini wirklich so clever sind wie angenommen. Von einer simplen Logikfrage zeigten sie sich jedenfalls durch die Bank weg überfordert.

3 Min.
Artikel merken
Anzeige
Anzeige

Die besten KI-Tools scheinen von einer einfachen Logikfrage überfordert zu sein – oder doch nicht? (Foto: Koshiro K/Shutterstock)

Spätestens seit dem Erscheinen von ChatGPT haben die Fähigkeiten von KI-Modellen Beobachter:innen immer wieder überrascht. So soll der OpenAI-Chatbot Expert:innen in puncto Finanzanalysen übertreffen können. In vielen Bereichen, so die Befürchtung, könnte KI Menschen bald überflüssig machen.

Anzeige
Anzeige

Eklatante Schwächen bei Mathe und Logik

Allerdings zeigen sich neben den Stärken immer wieder auch eklatante Schwächen der großen Sprachmodelle, insbesondere was Mathematik und Logik angeht. Eine Studie der KI-Forschungsorganisation Laion hat jetzt ein besonders seltsames Versagen auch der besten KI-Tools aufgedeckt – bei einer simplen Logikfrage.

Konkret geht es um das sogenannte „Alice im Wunderland“-Problem. Dabei handelt es sich um folgende, eigentlich leicht zu beantwortende Frage: „Alice hat [X] Brüder und [Y] Schwestern. Wie viele Schwestern hat Alices Bruder?“ Als X und Y haben die Forscher:innen jeweils verschiedene Werte eingesetzt.

Anzeige
Anzeige

„Alice im Wunderland“-Problem zum Nachrechnen

Nehmen wir einmal ein Beispiel, in dem Alice zwei Brüder und drei Schwestern hätte. Die Frage wäre dann, wie viele Schwestern jeder der beiden Brüder von Alice jeweils hätte. Wer kurz darüber nachdenken will, liest jetzt nicht weiter.

Googles neue KI-Suche geht nach hinten los Quelle:

Die Lösung ist in diesem Fall: vier. Denn Alice ist ja auch eine Schwester ihrer Brüder. Einfach gesagt, rechnet man bei jeder Variante dieser Frage einfach plus eins (Alice), wenn es um die Zahl der Schwestern geht.

Anzeige
Anzeige

Die befragten KI-Modelle – untersucht wurden unter anderem OpenAIs GPT-3, GPT-4 und GPT-4o, Anthropics Claude 3 Opus, Googles Gemini sowie Metas Llama-Modelle – hatten laut den Forscher:innen alle Probleme mit der richtigen Lösung. Noch verrückter: Die Tools sollen in vielen Fällen auf der falschen Lösung beharrt haben, auch wenn sie auf den korrekten Lösungsweg gestoßen wurden.

KI-Modelle beharren auf falscher Lösung

„Das Scheitern ist dramatisch, da die Modelle auch ein starkes Übervertrauen in ihre falschen Lösungen zeigen und gleichzeitig oft unsinnige Erklärungen liefern, um die Richtigkeit ihrer offensichtlich falschen Antworten zu rechtfertigen, damit sie plausibel klingen“, so die Forscher:innen in der Studie.

Anzeige
Anzeige

Im Vergleich konnte demnach lediglich das neue OpenAI-Modell GPT-4o eine befriedigende Erfolgsrate aufweisen: 65 Prozent. Claude 3 Opus antwortete dagegen in nur 43 Prozent der Fälle richtig, Googles Gemini Pro gar nur in 0,8 Prozent der Fälle.

Was unser KI-Kurztest zeigt

In unserem Kurztest lag ChatGPT mit GPT-4o zwar im ersten Lösungsversuch falsch, ließ sich aber auf Nachfrage davon überzeugen, dass Alice als zusätzliche Schwester zur Zahl der Schwestern hinzuzurechnen sei. Gemini derweil gab schon im ersten Versuch die richtige Antwort – nachdem sich die KI, unaufgefordert, während der Beantwortung selbst korrigierte.

Google Gemini zum „Alice im Wunderland“-Problem (Alice, 2 Brüder, 3 Schwestern): „Alice’s brother has 3 sisters. Even though we know Alice has 3 sisters, we need to consider that Alice herself is also a sister to her brothers. So, her brothers have Alice and her 3 other sisters, for a total of 3+1 = 4 sisters.“

Insofern sollte bei der Beurteilung der Studienergebnisse auch in Betracht gezogen werden, dass die KI-Chatbots sich stetig weiterentwickeln und Logikfragen wie das „Alice im Wunderland“-Problem bald kein Problem mehr darstellen könnten. Die Laion-Studie ist jedenfalls noch nicht von anderen Wissenschaftler:innen begutachtet worden (Peer-Review).

Anzeige
Anzeige

Offizielle Erfolgsraten geschönt?

Es ist allerdings nicht das erste Mal, dass die von den KI-Firmen selbst angegebenen Erfolgsraten – bei Logikfragen sollen diese zwischen 64 und 88 Prozent liegen – infrage gestellt werden, wie Futurism schreibt. Auch die Untersuchungen anderer Forscher:innen wie jene von Eric Martínez vom MIT wecken demnach Zweifel an den offiziell angegebenen KI-Benchmarks.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige