Wenn Chatbots Fantasie statt Fakten liefern: Warum knappe Antworten zu KI-Halluzinationen führen

Wenn KI knapp antworten soll, halluziniert sie deutlich häufiger. (Grafik: Midjourney/t3n)
Halluzinationen gehören nach wie vor zu den größten Problemen von KI-Modellen. Wenn die Programme plötzlich falsche Tatsachen als Wahrheit proklamieren, können schnell Probleme entstehen. Deshalb suchen KI-Forscher:innen immer wieder nach neuen Ansätzen, um Halluzinationen zuverlässig zu erkennen. Eine neue Studie zeigt, dass wir aber oftmals selbst dafür sorgen, dass die KI halluziniert.
KI-Halluzinationen durch zusätzliche Anweisungen
Das Softwareunternehmen Giskard, das ein Tool zum Testen von KI-Tools bereitstellt, kommt in einer neuen Studie zu diesem Schluss. Im Rahmen der Studie wurden KI-Modelle wie Gemini 1.5 Pro, Mistral Large, GPT-4o, Grok 2 und Claude 3.7 Sonnet auf ihren Widerstand gegen Halluzinationen getestet. Zunächst wurden einfache Fakten von den Chatbots abgefragt – etwa, wer der aktuelle Präsident im Libanon ist.
Danach wurden die Modelle auf ihren Widerstand gegen Desinformationen getestet, indem der Prompt mit falschen Aussagen gespickt wurde. In einem dritten Test enthielten die Prompts Verschwörungstheorien, urbane Legenden oder pseudowissenschaftliche Erklärungen. Am Ende erhielten die KI-Modelle einen Wert, der ihren Widerstand gegen Halluzinationen festhält. So erreichte Gemini 1.5 Pro etwa den Wert 0,84 auf einer Skala von null bis eins. Claude 3.7 Sonnet schloss mit einer 0.94 ab, während GPT-4o mit 0,74 etwas darunter lag. Grok 2 erzielte mit 0,46 einen der schlechtesten Werte.
Je nachdem, wie der Prompt formuliert wurde, kam es aber deutlich häufiger zu Halluzinationen. Das ist laut der Studie dann der Fall, wenn die KI-Modelle aufgefordert werden, eine knappe Antwort zu formulieren. Unter diesen Umständen sinkt der Widerstand gegen Halluzinationen messbar ab. Gemini 1.5 Pro konnte so nur noch einen Wert von 0,64 erzielen, während Claude Sonnet 3.7 auf 0,86 fiel. Bei GPT-4o (0,63) und Grok 2 (0,34) machten sich die Formulierungen ebenfalls bemerkbar.
Ähnliche Probleme hatten die Chatbots, wenn User:innen behaupten, dass sie sich hundertprozentig sicher sind oder der KI sagen, dass sie die Falschinformationen von einem Lehrer erfahren haben. In solchen Fällen widerlegt die KI die Informationen nicht mehr eigenständig. Die Probleme bei kurzen Antworten erklären die Studienverantwortlichen damit, dass die KI-Modelle nicht ausreichend Platz bekommen, um Falschaussagen zu widerlegen oder ihren Gedankengang zu schildern. Also greifen sie darauf zurück, den User:innen zuzustimmen.
So heißt es in der Studie: „Das Optimieren für eine bessere Nutzererfahrung kann manchmal auf Kosten der sachlichen Richtigkeit gehen. Das schafft eine Spannung zwischen Genauigkeit und den Erwartungen der Nutzer – vor allem, wenn diese Erwartungen falsche Prämissen enthalten. […] Unsere Tests zeigen, dass Modelle, die am besten in der Nutzerzufriedenheit abschneiden, oftmals Antworten produzieren, die zuverlässig klingen, aber fabrizierte Informationen enthalten“.