ChatGPT: Forscher haben eine neue Methode gefunden, Halluzinationen zu reduzieren

Wer schon mal über einen längeren Zeitraum mit einer KI gearbeitet hat, wird vermutlich auch Halluzinationen der künstlichen Intelligenz gesehen haben. Dabei handelt es sich im Grunde um Aussagen, die die KI für richtig ausgibt, die aber faktisch falsch sind. Wer sich blind auf die KI verlässt, kann so schnell Probleme bekommen. Denn die Halluzinationen lassen sich nur schwer von richtigen Aussagen unterscheiden, wenn sie nicht extern überprüft werden.
Dieses Problem haben auch Forscher:innen der University of Oxford erkannt und ihre eigene Methode entwickelt, um solche Halluzinationen bei einer KI aufzudecken. Genauer gesagt, haben sie sich für ihre Studie ChatGPT vorgenommen.
So können Halluzinationen von ChatGPT aufgedeckt werden
Um zu testen, ob ChatGPT zu einem bestimmten Thema halluziniert, stellen die Forscher:innen zunächst immer wieder dieselbe Frage. In ihrem Beispiel lautet die Frage: „Wo steht der Eiffelturm?“ ChatGPT kann nun Antworten wie „Paris“, „Er steht in Paris“ oder „In Paris, der Hauptstadt Frankreichs“ liefern.
Diese Antworten gehören zu einem semantischen Cluster. Die KI weiß also die richtige Antwort, formuliert sie aber auf unterschiedliche Weise. Aufgrund des KI-Trainings kann es aber vorkommen, dass Antworten wie „In Paris, der Hauptstadt Frankreichs“ deutlich seltener ausgegeben werden, obwohl sie faktisch richtig sind.
Leidet ChatGPT bei einem Thema an Halluzinationen, können sich neben den richtigen Antworten auch Falschaussagen einschleichen. In besagtem Beispiel könnten Antworten wie „Rom“ oder „Er steht in Rom“ entstehen, die sich auf den ersten Blick nicht als Halluzination identifizieren lassen, wenn man selbst die Antwort nicht kennt. Dabei können diese Antworten sogar eine höhere Wahrscheinlichkeit als „In Paris, der Hauptstadt Frankreichs“ haben und dementsprechend häufiger ausgegeben werden.
Das System der Forscher:innen soll das verhindern. Sie sortieren die Antworten über ein weiteres Sprachmodell in semantische Cluster. So gehören „Paris“, „Er steht in Paris“ und „In Paris, der Hauptstadt Frankreichs“ zu einem Cluster mit derselben Bedeutung. Alle Wahrscheinlichkeiten der einzelnen Begriffe werden dabei zusammengezählt. Das Cluster bekommt dadurch eine deutlich höhere Wahrscheinlichkeit als seltenere Antworten wie „Rom“. Die richtigen Antworten werden dadurch deutlich häufiger generiert.
Wie könnte diese neue KI-Technik zum Einsatz kommen?
Laut den Forscher:innen ist die Methode deutlich effektiver als andere etablierte Techniken, um Halluzinationen in künstlichen Intelligenzen zu identifizieren. Künftig könnte sie zum Einsatz kommen, um Halluzinationen in diversen großen Sprachmodellen zu reduzieren.
In einem Interview mit der Times verrät Sebastian Farquhar, einer der Autoren der Studie, dass eine KI mit weniger Halluzinationen zuverlässig in Bereichen eingesetzt werden könnte, in denen das heute noch undenkbar ist – etwa im Rechtswesen.
Zudem könnten auch Privatanwender:innen von der Technik profitieren. Laut Farquhar könnte OpenAI künftig einen eigenen Button für die semantische Wahrscheinlichkeit einer Antwort implementieren. Sobald die Nutzer:innen darauf klicken, würden sie sehen, wie sicher sich die KI bei der Antwort ist – beziehungsweise wie oft sie schon semantisch identische Antworten geliefert hat.