Bevor Halluzinationen entstehen: So könnten KI-Modelle künftig ihre Fehler frühzeitig einsehen

Forscher:innen haben herausgefunden, dass LLMs ihre eigenen Fehler erkennen können. (Bild: MarutStudio/Shutterstock)
Wenn eine KI eine falsche Antwort gibt oder Informationen von sich gibt, die sie sich selbst „ausgedacht“ hat, spricht man von Halluzinationen. Diese sind auch bei großen Modellen wie GPT, Mistral oder Llama immer noch ein großes Problem. Ein Problem, das Forscher:innen von Technion, Google Research und Apple lösen wollten.
Kann eine KI andere KI-Fehler erkennen?
In einer Studie haben die Forscher:innen sich genauer angeschaut, wie Halluzinationen in einem LLM entstehen. Dafür haben sie zunächst Mistral 7B und LLama 2 in zehn verschiedenen Datensets über mehrere Gebiete hinweg Aufgaben erledigen lassen. Dazu zählten etwa mathematische Probleme und das Beantworten von Fragen.
Sie haben dabei festgestellt, dass die Wahrheit der Antwort meist in von ihnen benannten „Exact Answer Tokens“ steckt. Also Tokens, die die gesamte Aussage zu einer Halluzination machen würden, wenn sie nicht korrekt wären. Dementsprechend haben die Forscher:innen nach Wegen gesucht, die Chance auf „Exact Answer Tokens“ zu erhöhen. Denn diese werden nur ausgegeben, wenn die KI sie als wahrscheinlichsten Token für die Antwort erachtet.
Ihr Lösungsansatz sind sogenannte „Probing Classifiers“, also KI-Modelle, die den Token-Output von LLMs analysieren können. Diese KI-Modelle können anhand der korrekten Token trainiert werden und erkennen anschließend, anhand welcher Faktoren ein großes Sprachmodell die Token intern auswählt und ausgibt. Anhand dieser Daten kann der Classifier schon vorab einschätzen, ob die Antwort korrekt ausfällt oder ob die KI einen falschen Weg zur Antwort genommen hat.
Zudem haben die Forscher:innen festgestellt, dass die Probing Classifiers in der Lage sind, die Art des Fehlers vorab zu erkennen. Diese Erkenntnisse wären für KI-Entwickler:innen Gold wert. Sie könnten ihr Programm anhand der Daten noch besser gegen Halluzinationen wappnen. Das soll sich laut den Forscher:innen vor allem in den Fällen lohnen, in denen die KI zwar den korrekten Weg zur Antwort nimmt, aber dann trotzdem am Ende eine falsche Antwort generiert.
Allerdings gibt es noch Probleme bei der Methode der Forscher:innen. Da die Probing Classifiers auf die interne Struktur einer KI zugreifen und diese analysieren müssen, funktioniert das bislang nur bei Open-Source-Modellen. Dennoch sind sich die Forscher:innen sicher, dass ihre Erkenntnisse dabei helfen können, Halluzinationen künftig besser zu verstehen und zu verringern.