Überraschende Studie: KI weiß oft die richtige Antwort – auch wenn sie falsch antwortet
Große Sprachmodelle (LLM), auf denen etwa Chatbots wie ChatGPT basieren, sind berüchtigt für ihre Halluzinationen. Darunter werden im KI-Bereich überzeugend formulierte, aber falsche Antworten auf teils einfache Anfragen verstanden.
KI-Halluzinationen bekämpfen
Schon länger versuchen Wissenschaft und Unternehmen, das Halluzinieren der KI-Systeme zu bekämpfen. Microsoft etwa hat erst kürzlich mit Correction ein Tool vorgestellt, das KI-Antworten auf Richtigkeit prüfen soll.
Eine Studie von Forscher:innen der Technion-Universität im israelischen Haifa zufolge, an der auch Apple und Google beteiligt waren, hat jetzt einen genaueren Blick ins Innenleben der LLM geworfen. Und dabei interessante Entdeckungen gemacht, die künftig die Korrektur von KI-Fehlern vereinfachen können.
KI-Systeme wissen mehr als man denkt
Die Haupterkenntnis versteckt sich schon Titel der Studie: „LLMs Know More Than They Show“. Den Forscher:innen zufolge „wüssten“ KI-Systeme oft die richtige Antwort, obwohl sie die Frage falsch beantworteten.
Dieses Phänomen ist wohl damit zu begründen, dass speziell die großen Sprachmodelle darauf trainiert sind, die am wahrscheinlichsten folgenden Wörter zu bilden – und nicht notwendigerweise die für den jeweiligen Fall korrekten.
Suche nach korrekten Antwort-Token
Um das Innenleben der KI-Systeme zu analysieren, haben die Forscher:innen eine neue Methode entwickelt, wie The Decoder berichtet. Dabei setzen sie auf sogenannte korrekte Antwort-Tokens. Ein solcher Token wäre etwa das Wort „Paris“ in einer längeren Antwort auf die Frage nach der Hauptstadt Frankreichs.
In diesen Token, so die Forscher:innen stecken die meisten Informationen darüber, ob eine Antwort korrekt oder falsch ist. Schnell stellte sich heraus, dass die KI-Systeme oft die korrekte Antwort parat hätten, aber trotzdem eine falsche Antwort gaben. Sie verfügen also über mehr Informationen als sie preisgeben, so die Studie.
Neue Ansätze für Fehlerkorrekturen
Zudem zeigte sich, dass die KI die Erkennung der Fehler besonders gut darstellen konnte, wenn die Aufgabentypen ähnlich war. Für die Forscher:innen ein Zeichen, dass die KI beim Umgang mit bestimmten Informationsarten spezielle Fähigkeiten entwickelt. Diese Erkenntnisse könnten dazu führen, neue Ansätze für die Verbesserung der Zuverlässigkeit und Genauigkeit von KI-Systemen finden.
Für kritische Beobachter:innen werfen die durchaus überraschenden Studienergebnisse aber ganz grundsätzliche Fragen auf, etwa zu den Entscheidungsprozessen innerhalb der LLMs. Sind die KI-Ergebnisse von anderen Faktoren als der bloßen Vorhersage des wahrscheinlichsten Token beeinflusst, fragt etwa Silverwave-Gründer Pete Weishaupt.
Zweifel an Grund für Halluzinationen
Bisher, so Weishaupt, sei man davon ausgegangen, dass die Halluzinationen darauf zurückzuführen seien, dass die KI-Systeme nicht ausreichend trainiert worden oder nicht fähig seien, Wissen zu verallgemeinern.
Die Forschungsergebnisse würden jetzt auf ein viel differenzierteres Bild hinweisen, „bei dem LLMs möglicherweise bewusste Entscheidungen über die von ihnen präsentierten Informationen treffen“. Selbst dann, wenn dies Ungenauigkeiten oder Fehler bedeuten würde.