Eines der großen Probleme von KI-Chatbots wie ChatGPT ist, dass sie immer wieder einmal falsche Informationen in die erzeugten Texte einstreuen. Expert:innen sind sich uneins, ob sich das sogenannte Halluzinationsproblem der Multimodalen Großen Sprachmodellen (MLLM), auf denen ChatGPT und Co. basieren, überhaupt je lösen lassen wird.
Halluzinationen aus KI-Texten herauspicken
Entsprechend bahnbrechend für die künftige Nutzung könnte sein, was chinesische KI-Forscher:innen jetzt entwickelt haben. Das Framework Woodpecker soll Fehlinformationen in MLLM korrigieren – ähnlich wie der namensgebende Specht Insekten aus Bäumen holt.
Konkret geht es in der auf dem Preprint-Server Arxiv veröffentlichten Studie „Woodpecker: Hallucination Correction for Multimodal Large Language Models“ um die Korrektur von Fehlern in Bildbeschreibungen. Bisherige Lösungen, so die Forscher:innen, würden für die Fehlerkorrektur ein neues Training der KI voraussetzen.
Woodpecker-Methode kommt ohne Training aus
Das Besondere an Woodpecker sei dagegen, dass eine Methode ohne Training verwendet werde, um bildbeschreibende Texte von Halluzinationen zu befreien. Dazu identifiziert das Framework zunächst die im Antworttext befindlichen Objekte und schaut selbst im Bild nach deren Zahl und Attributen.
Anhand eines Visual-Knowledge-Validation-Modells kann Woodpecker die erkannten Objekte einordnen und entsprechende Aussagen tätigen. Etwa, dass sich zehn Menschen in einem Bild befinden. Anschließend korrigiert das Framework mögliche Unstimmigkeiten der KI-Chatbot-Antwort zu Zahl oder Farbe von Objekten und beweist seine eigenen Angaben direkt im Bild.
Online-Demo zeigt Funktionsweise
Die Forscher:innen haben den Woodpecker-Code auf GitHub zur Verfügung gestellt. Dort findet sich auch eine interaktive Online-Demo, die zeigt, wie das System funktioniert.
Dem Forschungsteam zufolge ermöglicht Woodpecker deutlich Verbesserungen bei der Genauigkeit – soll also tatsächlich Verbesserungen beim Halluzinationsproblem bringen. So sei etwa die Genauigkeit von generierten Texten auf Basis von MiniGPT-4 von 55 auf 85 Prozent gesteigert worden.
Game-Changer für KI-generierte Texte?
Das System ist entsprechend noch nicht perfekt, könnte aber den Weg für genauere und vertrauenswürdigere KI-Systeme bereiten. Ein Game-Changer, wie Venturebeat schreibt? Vielleicht.
Jedenfalls hat Woodpecker das Potenzial, die in immer mehr Produkten zur Anwendung kommenden Sprachmodelle zu verbessern – ohne dass diese noch einmal ins Trainingslager zurückkehren müssten.