Anzeige
Anzeige
MIT Technology Review News

Halluzinationen bei KI: So erkennst du, wann ChatGPT und Co. unsicher sind

Sprachmodelle halluzinieren. Weil das ein großes Problem ist, suchen Forscher nach neuen Wegen, ihnen auf die Schliche zu kommen. Ein neuer Ansatz versucht es nun mit „semantischer Entropie“.

Von Eike Kühl
3 Min.
Artikel merken
Anzeige
Anzeige
ChatGPT widerspricht sich teilweise selbst – und schwankt je nach Fragestellung. (Bild: Lalandrew/ Shutterstock)

Halluzinationen sind und bleiben ein großes Problem großer Sprachmodelle. Wer ein Modell wie ChatGPT oder Gemini nutzt, kann nie hundertprozentig sicher sein, ob die Antworten tatsächlich der Wahrheit entsprechen oder ob das Sprachmodell nicht Fakten erfunden hat, unsinnige Aussagen trifft oder unplausible Szenarien beschreibt. In der Forschung gibt es verschiedene Ansätze, um herauszufinden, wann und weshalb ein großes Sprachmodell halluziniert sowie erste Versuche, diesen Vorgang zu unterbinden. In einem neuen Ansatz versuchen Forscher, Halluzinationen mithilfe von „semantischer Entropie“ auf die Schliche zu kommen.

Anzeige
Anzeige

In einer Studie, die in dieser Woche im Fachmagazin Nature erschienen ist, konzentriert sich das Team um Sebastian Farquhar von der Universität Oxford auf sogenannte Konfabulationen. Diese beschreiben die Forscher als „willkürliche und inkorrekte Generalisierungen“, die, anders als etwa Fehler aufgrund fehlerhafter Trainingsdaten oder durch gezieltes Prompting hervorgerufene Lügen, nicht systematisch vorkommen und somit eine Unterart der Halluzinationen darstellen. Eine Konfabulation findet etwa dann statt, wenn ein Sprachmodell auf die gleiche Frage willkürlich richtig oder falsch antwortet.

Um solche Konfabulationen zu erkennen, berechnet Farquhars Team mit einer mathematischen Methode die semantische Entropie des Outputs. Es analysiert also, wie stark sich die Antworten auf der Bedeutungsebene unterscheiden. Um das zu bestimmen, wird das Sprachmodell dazu angehalten, mehrere Antworten auf dieselbe Frage zu generieren. Diese Antworten werden von einem zweiten „Lektoren“-Sprachmodell (das je nach Versuchsaufbau das gleiche Modell oder ein anderes sein kann) auf ihre sprachlich-semantische Variabilität hin untersucht. Unterscheiden sich die Antworten stark, enthalten sie etwa unterschiedliche Jahreszahlen, Begriffe oder Formulierungen, wäre das ein Hinweis darauf, dass sich das Sprachmodell offenbar unsicher ist und deshalb konfabulieren könnte. Enthält die Antwort dagegen kaum Variationen, scheint es sich relativ sicher zu sein.

Anzeige
Anzeige

Sprachmodelle sollen sagen, wenn sie sich unsicher sind

Die Besonderheit des vorgestellten Ansatzes ist es, dass die unterschiedlichen Antworten nicht, wie bei vorherigen Analysen mithilfe von Entropie, einzelnen betrachtet werden, sondern anhand ihrer Bedeutung, also semantisch, zusammengefasst werden. Antwortet das Modell auf die Frage „In welcher Stadt steht der Eiffelturm?“ mit „Paris“, „Es ist Paris“ und „In Frankreichs Hauptstadt Paris“, werden diese drei Antworten nicht als drei unterschiedliche Antworten betrachtet, sondern als Cluster zusammengefasst – und je geringer die semantische Entropie des Clusters, desto sicherer die Antwort.

„Semantische Entropie erkennt Konfabulationen bei der Generierung frei formulierter Texte in einer Reihe von Sprachmodellen und in verschiedenen Domänen“, heißt es in der Studie. Getestet wurde das Verfahren über 30 Sprachmodelle und Aufgaben hinweg, wobei es fast durchgängig besser abschnitt als bisherige, Entropie-basierte Ansätze ohne Clustering. Durch das Verfahren könne man falsche Antworten vorhersagen und somit die Genauigkeit großer Sprachmodelle verbessern. So könnten die Modelle die Nutzer:innen explizit darauf hinweisen, dass sie sich bei einer Anfrage unsicher sind und die Antwort oder Teile davon halluziniert sind – oder das Modell könnte bei großer Unsicherheit eine Frage gleich gar nicht erst beantworten.

Anzeige
Anzeige

„Suggeriert sogar falsche Sicherheit“

„Die Studie liefert ein Hilfsmittel, um eine wichtige Form von KI-Fehlverhalten zu erkennen“, sagt Philipp Hennig, Professor für die Methoden des Maschinellen Lernens an der Eberhard Karls Universität Tübingen, in einer Einschätzung für das Science Media Center (SMC). Sie sei aber kein Allheilmittel gegen Halluzinationen: „Wenn ein KI-Modell von einer objektiv falschen Aussage ‚überzeugt‘ ist, zum Beispiel weil diese in den Trainingsdaten der KI falsch enthalten ist oder weil das Modell schlecht trainiert wurde, dann hilft diese neue Methode nicht weiter – beziehungsweise suggeriert sogar falsche Sicherheit“, sagt Henning. Ein Nachteil, auf den auch die Forscher selbst verweisen.

Auch Barbara Hammer, Professorin für Maschinelles Lernen an der Universität Bielefeld, hält den vorgestellten Ansatz für „gut, aber nicht besonders überraschend“. Sie verweist außerdem auf die Schwächen solcher „intrinsischer Ansätze“, in denen versucht wird, den Output eines großen Sprachmodells mit statistischen Methoden zu untersuchen und Auffälligkeiten festzustellen. Sie unterscheiden sich von extrinsischen Ansätzen, bei denen die generierten Texte etwa mit explizitem Wissen abgeglichen werden. „Nur letztere Ansätze können beweisbar korrekte Antworten liefern, intrinsische Ansätze sind hier grundsätzlich beschränkt, wenn auch in der Beobachtung häufig sehr gut“, sagt Hammer gegenüber dem SMC.

Anzeige
Anzeige

Anders gesagt: Die Untersuchung der Forscher aus Oxford ist keine Lösung, aber zumindest ein weiteres kleines Puzzleteil auf dem immer noch langen Weg, Halluzinationen zuverlässig zu erkennen und bestenfalls zu unterbinden.

 

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige