GPT-4 und Co.: Je größer das KI-Modell, desto mehr Unsinn erzählt es, zeigt eine Studie
Größere Sprach-KIs geben immer öfter schlechte Antworten. Diesen Schluss legt eine Studie zur Genauigkeit von großen Sprachmodellen nahe. Forscher nahmen dafür drei große LLM unter die Lupe: GPT von OpenAI, Llama von Meta und Bloom, ein Open-Source-Modell, das die akademische Gruppe BigScience entwickelte.
Groß bedeutet nicht automatisch gut
José Hernández-Orallo vom Valencian Research Institute for Artificial Intelligence in Spanien und seine Kollegen analysierten für ihre Studie die eingangs erwähnten Sprach-KI auf Fehler in ihren Antworten. Außerdem präsentieren sie menschlichen Probanden falsche Antworten, um zu sehen, wie gut wir Menschen darin sind, falsche Antworten zu erkennen.
Dafür untersuchten sie zunächst eine frühe Version des jeweiligen Sprachmodells. Das alte Modell wurde anschließend mit einer aktuelleren, verbesserten Version verglichen. Der Unterschied: Die neuen Versionen waren in der Zwischenzeit mit deutlich mehr Daten gefüttert worden, um ihre Antworten zu verfeinern.
Die Wissenschaftler fanden heraus, dass die verbesserten KI-Modelle erwartungsgemäß genauere Antworten geben. Das führen die Forscher auf das menschliche Feedback zurück, das bei der Verfeinerung von KI-Antwortmöglichkeiten hilft. Es bleibt allerdings ein großes Aber: Die genaueren Antworten gelten nur für die Fälle, in denen KI die gestellte Frage wirklich beantworten konnte.
Hernández-Orallo und sein Team stellte laut Nature ebenfalls fest, dass die Zuverlässigkeit gleichermaßen abnimmt. Die Forscher schreiben dazu: „Unter den ungenauen Antworten hat der Anteil falscher Antworten zugenommen.“
Das passiert, weil die Modelle seltener antworten, dass sie etwas nicht wissen, oder das Thema wechseln. „Heutzutage beantworten sie fast alles. Und das bedeutet mehr richtige, aber auch mehr falsche Antworten“, erklärt Hernández-Orallo.
„Die Tendenz der Chatbots, Meinungen zu äußern, die über ihr eigenes Wissen hinausgehen, hat zugenommen. Das sieht für mich nach dem aus, was wir als Bullshitting bezeichnen würden“, sagt Mike Hicks gegenüber Nature. Er ist Wissenschafts- und Technologiephilosoph an der Universität Glasgow, Großbritannien. „Das Ergebnis ist, dass normale Nutzer die Fähigkeiten von Chatbots wahrscheinlich überschätzen, und das ist gefährlich“, betont Hernández-Orallo im Bericht.
Test beweist: Falsche Antworten steigen anteilig um 60 Prozent und mehr
Die Wissenschaftler löcherten die Modelle mit Tausenden Aufforderungen. Es wurden zum Beispiel Fragen zu Arithmetik, Anagrammen, Geografie und Naturwissenschaften gestellt. Außerdem wurde die Fähigkeit der Bots zur Abwandlung von Informationen getestet, also etwa das Einordnen einer Liste in alphabetischer Reihenfolge.
Das Ergebnis verblüfft: Die verbesserten KIs wichen schwierigeren Fragen seltener aus, sondern versuchten sie zu beantworten. GPT-4 wird hier als Beispiel aufgeführt. Nature schreibt: „Der Anteil der falschen Antworten derer, die entweder falsch waren oder vermieden wurden, stieg mit zunehmender Größe der Modelle und erreichte bei mehreren verbesserten Modellen mehr als 60 Prozent.“
Das bedeutet nicht, dass größere Chatbots grundsätzlich 60 Prozent schlechte Antworten geben. Dabei handelt es sich um den Anteil von falschen Antworten auf Fragen, die die KI nicht beantworten kann. Wo ältere KI-Versionen also noch eher „Weiß ich nicht“ schreiben oder der Frage ausweichen, erfindet die KI mit größerem Lerndaten-Pool falsche Angaben.
Die Wissenschaftler prüften im weiteren Verlauf der Studie mit Freiwilligen, ob diese die Antworten als richtig, falsch oder vermeidend einstuften: In etwa zehn Prozent bis 40 Prozent der Fälle stuften die Probanden sowohl bei leichten als auch bei schwierigen Fragen falsche Antworten als richtig ein. Das Resümee des Wissenschaftlers klingt deshalb ziemlich vernichtend. „Menschen sind nicht in der Lage, diese Modelle zu überwachen“, sagt Hernández-Orallo.