
Apple Intelligence überzeugt bislang nicht. (Bild: Apple)
Seltsame Überschriften, falsche Informationen – die KI-generierten Nachrichtenzusammenfassungen der KI-Funktion Apple Intelligence haben zu heftiger Kritik geführt. Apple hat diesen Teil seiner Intelligence-KI bereits komplett gestoppt und arbeitet an einer Lösung.
Apple-Studie hat Fehler in allen LLM nachgewiesen
Apples KI-Entwickler:innen hatten sich das indes nicht nur schon gedacht, sondern bestehende Mängel in großen Sprachmodellen (LLM) sogar bereits nachgewiesen. In einer eigenen Studie hatten die Apple-Forscher:innen dargestellt, dass „in Sprachmodellen keine Hinweise auf formales Denken gefunden“ werden können.
Vielmehr lasse sich das Verhalten der LLM-basierten KI „besser durch ausgeklügelte Mustervergleiche erklären“. Die seien indes so fehleranfällig, dass bereits „die Änderung von Namen die Ergebnisse verändern kann“. Im Grunde täten die Sprachmodelle nicht anderes, als zu versuchen, „die in ihren Trainingsdaten beobachteten Denkschritte zu replizieren.“
Dabei hatten sich die Forscher:innen alle großen Sprachmodelle vorgenommen und überall ähnliche Fehler, wenn auch in unterschiedlichem Ausmaß gefunden. Einfach gestellte Aufgaben konnten die KI-Bots zwar sämtlich recht zuverlässig lösen. Sobald die Aufgaben jedoch komplexer formuliert oder mit irrelevanten Zusatzinformationen angereichert wurden, nahm die Genauigkeit der Antwort um bis zu 65 Prozent ab.
Einfache Rechenaufgabe führt LLM an den Rand des Versagens
Besonders gut veranschaulichen konnten die Apple-KI-Expert:innen das Problem mit einer Rechenaufgabe, die echtes Verständnis der Frage erforderte. Die an die KI gestellte Anfrage begann mit einfachen Informationen, die zur Ermittlung eines Ergebnisses benötigt wurden. „Oliver pflückt am Freitag 44 Kiwis. Dann pflückt er am Samstag 58 Kiwis. Am Sonntag pflückt er doppelt so viele Kiwis wie am Freitag.“
Nun fügten die Wissenschaftler:innen ein Detail hinzu, das letztlich gänzlich irrelevant war und aussortiert werden sollte. Sie formulierten nämlich, dass von den am Sonntag gepflückten Kiwis „fünf etwas kleiner als der Durchschnitt waren“.
Schlussendlich sollte die KI die einfache Frage beantworten: „Wie viele Kiwis hat Oliver?“ Sowohl das Modell von OpenAI als auch Metas Llama3-8b zogen die fünf kleineren Kiwis vom Gesamtergebnis ab.
Alle LLM machen Fehler, manche mehr
Insgesamt gab es zwar durchaus Unterschiede in den immerhin 20 getesteten LLM, aber selbst das cleverste Modell, OpenAIs o1-preview, brach bei dieser Aufgabe um 17,5 Prozent ein, während der Vorgänger GPT-4o sogar um 32 Prozent abfiel. Weniger schwerwiegend, aber immerhin messbar war der Leistungsrückgang bereits dann, wenn bei der gleichen Frage nur die Zahlen ausgetauscht wurden.
„Dies offenbart einen kritischen Fehler in der Fähigkeit der Modelle, relevante Informationen zur Problemlösung zu erkennen, wahrscheinlich weil ihre Argumentation nicht formal im Sinne des allgemeinen Sprachgebrauchs ist und hauptsächlich auf Mustererkennung basiert“, schrieben die Forscher:innen. Apple hinderte diese, immerhin im eigenen Hause gefundene Erkenntnis, indes nicht daran, sein eigenes Modell auf seine riesige Nutzergemeinde loszulassen und wundert sich nun über das Ergebnis.
Denn die Verkaufszahlen hebt die KI-Integration nicht. Stattdessen hagelt es harsche Kritik.