Apple-Studie: LLM-basierte KI-Modelle können nicht logisch denken
Eine neue Studie der KI-Wissenschaftler:innen des US-Technologieunternehmens Apple zeigt, dass KI-Modelle sehr leicht zu fehlerhaften Antworten zu bringen sind, weil sie nicht einmal über grundlegende logische Denkfähigkeiten verfügen.
KI lässt sich durch irrelevanten Kontext verwirren
Einfach gestellte Aufgaben lösen KI-Bots, die auf großen Sprachmodellen (LLM), wie denen von Meta oder OpenAI, recht zuverlässig. Sobald die Aufgaben jedoch komplexer formuliert oder mit irrelevanten Zusatzinformationen angereichert werden, nimmt die Genauigkeit der Antwort um bis zu 65 Prozent ab.
Besonders gut veranschaulichen ließ sich das Problem mit einer Rechenaufgabe, die echtes Verständnis der Frage erforderte. Die vom Team entwickelte Aufgabe mit dem Namen „GSM-Noop“ ähnelte den mathematischen „Textaufgaben“, mit denen Grundschüler konfrontiert werden könnten.
Die an die KI gestellte Anfrage begann mit einfachen Informationen, die zur Ermittlung eines Ergebnisses benötigt wurden. „Oliver pflückt am Freitag 44 Kiwis. Dann pflückt er am Samstag 58 Kiwis. Am Sonntag pflückt er doppelt so viele Kiwis wie am Freitag.“
Dann jedoch fügten die Wissenschaftler:innen ein Detail hinzu, das letztlich gänzlich irrelevant war und aussortiert werden sollte. Sie formulierten nämlich, dass von den am Sonntag gepflückten Kiwis „fünf etwas kleiner als der Durchschnitt waren“.
Nun sollte die KI die einfache Frage beantworten: „Wie viele Kiwis hat Oliver?“ Sowohl das Modell von OpenAI als auch Metas Llama3-8b zogen die fünf kleineren Kiwis vom Gesamtergebnis ab.
Ausgeklügelte Mustervergleiche statt logischen Denkens
„Auf dieser Grundlage kann man einfach keine zuverlässigen Agenten aufbauen, bei denen das Ändern von ein oder zwei Wörtern auf irrelevante Weise oder das Hinzufügen einiger irrelevanter Informationen zu einer anderen Antwort führen kann“, so ein Fazit der Studie.
„Wir haben in Sprachmodellen keine Hinweise auf formales Denken gefunden“, schreiben die Forscher:innen. Vielmehr lasse sich das Verhalten der LLM-basierten KI „besser durch ausgeklügelte Mustervergleiche erklären“. Die seien indes so fehleranfällig, dass bereits „die Änderung von Namen die Ergebnisse verändern kann“.
Die Leute haben völlig falsche Vorstellungen, was KIs sind. Sie denken dabei an unfehlbare Maschinen. Würde man versuchen herauszufinden, ob Menschen logisch denken können, würde man ebenso erschreckende Erkenntnisse gewinnen. Ich schätze nicht wenige Schüler wären bei dieser Fangfrage auch durchgefallen. Dabei weiß seit spätestens den 60er Jahren die Psychologie, dass Menschen logisches Denken nicht nativ beherrschen, sondern dies erst erlernen müssen. Spontan sind Menschen bei logischen Aufgabenstellungen sehr leicht hinters Licht zu führen. KI’s können wie Menschen nur das, was sie studiert haben. Man kann einen Arzt auch nicht zum Reparieren eines Autos holen oder einen Anwalt für die Geburt eines Kindes. Man o Mann, ihr haltet KIs für Maschinen, statt für das was sie sind: inteligente neuronale Netze.