KI auf dünnem Eis: Warum schon 0,001 Prozent fehlerhafte Daten die Sicherheit gefährden
Fehlinformationen und „Fake News“ stellen nicht nur für soziale Netzwerke ein wachsendes Problem dar, sondern gefährden auch die Zuverlässigkeit von KI-Systemen wie Large Language Models (LLM). Das kann richtig gefährlich werden, wie eine neue Studie zeigt.
Die meisten LLM basieren auf Trainingsdaten aus frei zugänglichen Texten im Internet. Fehlinformationen können die Modelle dabei nicht von echten Fakten unterscheiden, sodass auch sie Teil des „Wissens“ einer LLM-KI werden.
Forschende der New York University wollten herausfinden, ab welchem Anteil an fehlerhaften Daten ein LLM unzuverlässig wird. Dafür haben sie Artikel mit Falschinformationen in den Trainingssatz eines medizinischen Sprachmodells eingefügt. Das erschreckende Ergebnis: Schon 0,001 Prozent können das ganze Sprachmodell vergiften und zu Falschaussagen seitens der KI führen.
Data Poisoning von LLM: Schon 0,001 Prozent Fehlinformationen ausreichend
Sogenannte Halluzinationen, also erfundene Informationen, sind ein bekanntes Problem von KI-Sprachmodellen, vor allem da die Chatbots die erdachten Informationen mit größtmöglicher Selbstsicherheit vermitteln. Studien zeigten bereits, dass KI-Modelle teilweise sogar auf ihren Falschaussagen beharren, wenn User:innen sie hinterfragen.
Dass das ein generelles Problem ist, ist nicht schwer zu erkennen. Richtig gefährlich wird es jedoch, wenn Fehlinformationen die Trainingsdaten von KI-Modellen vergiften, die im medizinischen Bereich zum Einsatz kommen.
Die Forschenden der New York University, die ihre Studie kürzlich bei nature.com veröffentlicht haben, wollten aus eben diesem Grund herausfinden, wie viele Token des Trainingssatzes Fehlinformationen enthalten müssen, bevor die KI falsche Antworten gibt. Das Ergebnis: bedenklich.
„Das Ersetzen von nur einer Million aus 100 Milliarden Trainingstoken (0,001 Prozent) durch Fehlinformationen zu Impfstoffen führte zu einem Anstieg der schädlichen Inhalte um 4,8 Prozent“, schreiben die Forschenden in ihrer Studie, wie Futurism zitiert.
Studie: Large Language Models anfällig für Manipulation
Das größte Problem hieran ist, dass für das sogenannte „Data Poisoning“ (dt. „Daten-Vergiftung“) kein direkter Zugriff auf das LLM und dessen Parameter erforderlich ist. Es genügt, so die Forschenden, gezielt Fehlinformationen im Netz zu streuen und so die Trainingsdaten des Sprachmodells zu beeinflussen.
In dem Experiment waren nur 2.000 Artikel mit Fehlinformationen nötig, um das LLM und dessen Antworten zu manipulieren. Die Forschenden beobachteten dabei sogar eine Anhäufung von Falschaussagen bei Themen, zu denen sie dem getesteten KI-Modell gar keine falschen Daten gefüttert hatten.
„KI-Entwickler und Gesundheitsdienstleister müssen sich dieser Schwachstelle bewusst sein, wenn sie medizinische LLM entwickeln“, heißt es in dem Paper.
Forschende zeigen Lösungsansatz zur Eindämmung des Problems
Ganz ohne Hoffnungsschimmer ist die Studie allerdings nicht. Während klassische Methoden zur Verbesserung des Modells – darunter Prompt Engineering und Anweisungstuning – nichts an der Problematik ändern konnten, gelang es den Forschenden, einen Algorithmus zu entwickeln, der „medizinische Fachbegriffe in LLM-Ausgaben erkennen und Phrasen mit einem validierten biomedizinischen Wissensgraphen abgleichen konnte“, heißt es bei Ars Technica. Dieser Algorithmus habe zwar nicht alle Fehlinformationen erkannt, aber doch einen sehr hohen Prozentsatz als fehlerhaft markiert.
Bis eine nachhaltige Lösung für die Vergiftung von LLM-Datensätzen durch Fehl- oder gar gezielte Desinformation gefunden ist, sollten vor allem Sprachmodelle im medizinischen Einsatzbereich mit Vorsicht genossen werden. Anders als Falschaussagen in sozialen Netzwerken könnten unwahre Antworten eines solchen KI-Modells nämlich zu gefährlichen Fehldiagnosen oder -behandlungen führen.