Halluzinationen bei KI: So erkennst du, wann ChatGPT und Co. unsicher sind
Halluzinationen sind und bleiben ein großes Problem großer Sprachmodelle. Wer ein Modell wie ChatGPT oder Gemini nutzt, kann nie hundertprozentig sicher sein, ob die Antworten tatsächlich der Wahrheit entsprechen oder ob das Sprachmodell nicht Fakten erfunden hat, unsinnige Aussagen trifft oder unplausible Szenarien beschreibt. In der Forschung gibt es verschiedene Ansätze, um herauszufinden, wann und weshalb ein großes Sprachmodell halluziniert sowie erste Versuche, diesen Vorgang zu unterbinden. In einem neuen Ansatz versuchen Forscher, Halluzinationen mithilfe von „semantischer Entropie“ auf die Schliche zu kommen.
In einer Studie, die in dieser Woche im Fachmagazin Nature erschienen ist, konzentriert sich das Team um Sebastian Farquhar von der Universität Oxford auf sogenannte Konfabulationen. Diese beschreiben die Forscher als „willkürliche und inkorrekte Generalisierungen“, die, anders als etwa Fehler aufgrund fehlerhafter Trainingsdaten oder durch gezieltes Prompting hervorgerufene Lügen, nicht systematisch vorkommen und somit eine Unterart der Halluzinationen darstellen. Eine Konfabulation findet etwa dann statt, wenn ein Sprachmodell auf die gleiche Frage willkürlich richtig oder falsch antwortet.
Um solche Konfabulationen zu erkennen, berechnet Farquhars Team mit einer mathematischen Methode die semantische Entropie des Outputs. Es analysiert also, wie stark sich die Antworten auf der Bedeutungsebene unterscheiden. Um das zu bestimmen, wird das Sprachmodell dazu angehalten, mehrere Antworten auf dieselbe Frage zu generieren. Diese Antworten werden von einem zweiten „Lektoren“-Sprachmodell (das je nach Versuchsaufbau das gleiche Modell oder ein anderes sein kann) auf ihre sprachlich-semantische Variabilität hin untersucht. Unterscheiden sich die Antworten stark, enthalten sie etwa unterschiedliche Jahreszahlen, Begriffe oder Formulierungen, wäre das ein Hinweis darauf, dass sich das Sprachmodell offenbar unsicher ist und deshalb konfabulieren könnte. Enthält die Antwort dagegen kaum Variationen, scheint es sich relativ sicher zu sein.
Sprachmodelle sollen sagen, wenn sie sich unsicher sind
Die Besonderheit des vorgestellten Ansatzes ist es, dass die unterschiedlichen Antworten nicht, wie bei vorherigen Analysen mithilfe von Entropie, einzelnen betrachtet werden, sondern anhand ihrer Bedeutung, also semantisch, zusammengefasst werden. Antwortet das Modell auf die Frage „In welcher Stadt steht der Eiffelturm?“ mit „Paris“, „Es ist Paris“ und „In Frankreichs Hauptstadt Paris“, werden diese drei Antworten nicht als drei unterschiedliche Antworten betrachtet, sondern als Cluster zusammengefasst – und je geringer die semantische Entropie des Clusters, desto sicherer die Antwort.
„Semantische Entropie erkennt Konfabulationen bei der Generierung frei formulierter Texte in einer Reihe von Sprachmodellen und in verschiedenen Domänen“, heißt es in der Studie. Getestet wurde das Verfahren über 30 Sprachmodelle und Aufgaben hinweg, wobei es fast durchgängig besser abschnitt als bisherige, Entropie-basierte Ansätze ohne Clustering. Durch das Verfahren könne man falsche Antworten vorhersagen und somit die Genauigkeit großer Sprachmodelle verbessern. So könnten die Modelle die Nutzer:innen explizit darauf hinweisen, dass sie sich bei einer Anfrage unsicher sind und die Antwort oder Teile davon halluziniert sind – oder das Modell könnte bei großer Unsicherheit eine Frage gleich gar nicht erst beantworten.
„Suggeriert sogar falsche Sicherheit“
„Die Studie liefert ein Hilfsmittel, um eine wichtige Form von KI-Fehlverhalten zu erkennen“, sagt Philipp Hennig, Professor für die Methoden des Maschinellen Lernens an der Eberhard Karls Universität Tübingen, in einer Einschätzung für das Science Media Center (SMC). Sie sei aber kein Allheilmittel gegen Halluzinationen: „Wenn ein KI-Modell von einer objektiv falschen Aussage ‚überzeugt‘ ist, zum Beispiel weil diese in den Trainingsdaten der KI falsch enthalten ist oder weil das Modell schlecht trainiert wurde, dann hilft diese neue Methode nicht weiter – beziehungsweise suggeriert sogar falsche Sicherheit“, sagt Henning. Ein Nachteil, auf den auch die Forscher selbst verweisen.
Auch Barbara Hammer, Professorin für Maschinelles Lernen an der Universität Bielefeld, hält den vorgestellten Ansatz für „gut, aber nicht besonders überraschend“. Sie verweist außerdem auf die Schwächen solcher „intrinsischer Ansätze“, in denen versucht wird, den Output eines großen Sprachmodells mit statistischen Methoden zu untersuchen und Auffälligkeiten festzustellen. Sie unterscheiden sich von extrinsischen Ansätzen, bei denen die generierten Texte etwa mit explizitem Wissen abgeglichen werden. „Nur letztere Ansätze können beweisbar korrekte Antworten liefern, intrinsische Ansätze sind hier grundsätzlich beschränkt, wenn auch in der Beobachtung häufig sehr gut“, sagt Hammer gegenüber dem SMC.
Anders gesagt: Die Untersuchung der Forscher aus Oxford ist keine Lösung, aber zumindest ein weiteres kleines Puzzleteil auf dem immer noch langen Weg, Halluzinationen zuverlässig zu erkennen und bestenfalls zu unterbinden.