Forscher entwickeln „Bullshit-Index“: Wie ehrlich sind KI-Chatbots wirklich?

Während Tech-Konzerne ihre KI-Modelle als immer leistungsfähiger bewerben, widmen sich Princeton-Forscher einem ganz anderen Problem: Wie misst man eigentlich, wie viel Unsinn eine KI produziert? Ein neuer Index soll Abhilfe schaffen.

Von Noëlle Bölling
3 Min.
Forscher entwickeln „Bullshit-Index“: Wie ehrlich sind KI-Chatbots wirklich?
Viele KI-Modelle sagen uns das, was wir hören wollen. (Foto: Shutterstock / MAYA LAB)

Große Sprachmodelle sind dafür bekannt, es mit der Wahrheit nicht immer so genau zu nehmen. Wie das Wissenschaftsmagazin IEEE Spectrum berichtet, haben Forscher:innen der Princeton University jetzt einen „Bullshit-Index“ entwickelt, der misst, wie gleichgültig KI-Modelle mit korrekten Aussagen umgehen.

Halluzination oder Bullshit: Wo liegt der Unterschied?

Während Unternehmen wie OpenAI, Meta und Anthropic nicht müde werden, die Leistungsfähigkeit ihrer KI-Modelle anzupreisen, stellen Halluzinationen und irreführende Antworten nach wie vor ein ernstzunehmendes Risiko dar. Besonders problematisch ist, dass große Sprachmodelle Fakten oft sehr selbstbewusst präsentieren – auch dann, wenn diese falsch oder frei erfunden sind. Um dieses Phänomen zu analysieren, hat Jaime Fernández Fisac, Assistenzprofessor an der Princeton University, zusammen mit einem Forschungsteam den sogenannten „Bullshit-Index“ entwickelt. Er könnte dabei helfen, das Ausmaß zu quantifizieren, in dem KI-Modelle Dinge erfinden – und Ansätze finden, um dieses Verhalten einzudämmen.

Auch wenn der Begriff „Bullshit” zunächst hart klingen mag, hat Fernández Fisac ihn ganz bewusst gewählt. Das Konzept geht auf den Philosophen Harry Frankfurt zurück. Im Interview mit IEEE Spectrum erklärt Fernández Fisac: „Lügen bedeutet, etwas zu glauben und dann das Gegenteil zu behaupten. Bei Bullshit hingegen kümmert es einen schlicht nicht, ob das Gesagte wahr ist.“ Daher gebe es auch einen entscheidenden Unterschied zwischen Halluzinationen und dem, was er als „Bullshit“ bezeichnet – und der liegt in der internen Überzeugung des Systems. Wenn ein Sprachmodell halluziniert, ist es nicht mehr in der Lage, korrekte Antworten zu erzeugen. „Beim Bullshit hingegen ist das Problem nicht Verwirrung über die Wahrheit, sondern eine fehlende Verpflichtung, die Wahrheit zu berichten.“

KI-Modelle wollen den Nutzer:innen gefallen

Das Forschungsteam um Fernández Fisac hat zentrale Mechanismen untersucht, durch die große Sprachmodelle nutzungsfreundlicher werden sollen. Einer davon ist das „Reinforcement Learning from Human Feedback“ (RLHF): Hier wird das Modell zunächst mit großen Textmengen trainiert, um statistisch wahrscheinlich passende Fortsetzungen zu erzeugen. Im Anschluss wird es so angepasst, dass Nutzer:innen besonders zufrieden sind – und genau hier liegt ein wesentlicher Knackpunkt. Anstatt möglichst korrekte Antworten zu liefern, tendieren viele Modelle nämlich dazu, solche zu geben, die bei ihrem Gegenüber am besten ankommen.

Der „Bullshit-Index“ misst deshalb, wie unabhängig die Aussagen des Modells von seinen internen Überzeugungen sind. Ein Wert nahe 1 bedeutet, dass die Behauptung kaum Bezug zur eigenen Überzeugung hat, was gleichbedeutend mit hoher Gleichgültigkeit ist. Ein Wert nahe 0 bedeutet, dass Aussage und interne Einschätzung weitgehend übereinstimmen. Vor dem Einsatz von RLHF habe der Index bei etwa 0,38 gelegen – danach sei er fast auf das Doppelte angestiegen. Gleichzeitig nahm die Nutzungszufriedenheit um 48 Prozent zu. Mit RLHF sind Modelle also eher bereit, von der Wahrheit abzuweichen, um Nutzer:innen zufriedenzustellen.

Wie könnte „KI-Bullshit“ in Zukunft reduziert werden?

In der Praxis kann sich das auf verschiedene Weise äußern. Oft verlieren sich die Modelle in leerer Rhetorik, ohne einen inhaltlichen Mehrwert zu liefern. Sie tendieren zu vagen Formulierungen oder konzentrieren sich auf einzelne Faktoren, ohne den gesamten Kontext zu erwähnen, wodurch potenzielle Risiken ausgespart werden. Häufig sind auch unbestätigte Behauptungen, für die es keine glaubwürdigen Quellen gibt.

Zusammen mit seinem Team will sich Fernández Fisac, der Erstautor der Studie, dafür einsetzen, mit dem „Reinforcement Learning from Hindsight Simulation“ (RLHS) eine Alternative zu bieten. Dadurch sollen sowohl die Zufriedenheit als auch der tatsächliche Nutzen gesteigert werden. Zwar erhoffen sich auch die Forscher:innen davon keine Allzwecklösung für die bestehenden Probleme, dennoch sei es ein vielversprechender Ansatz, um „Bullshit“ systematisch zu reduzieren.

