Sicherheitslücken: 250 manipulierte Dokumente reichen aus, um Sprachmodelle zu kapern
KI lässt sich mit einfachen Tricks hintergehen. (Foto: Dall-E / t3n)
Eine neue Studie liefert beunruhigende Erkenntnisse zur Sicherheit großer Sprachmodelle (LLMs). Ein Team von Forscher:innen des KI-Sicherheitsunternehmens Anthropic aus San Francisco, des UK AI Security Institute und des Alan Turing Institute, beide im britischen London ansässig, hat gezeigt, dass eine überraschend geringe Anzahl manipulierter Dokumente ausreicht, um eine schädliche Hintertür, eine sogenannte Backdoor, in einem KI-Modell zu verankern.
Die zentrale Erkenntnis, die in einem auf der Pre-Print-Plattform Arxiv der Cornell University veröffentlichten Paper dargelegt wird, ist ein Paradigmenwechsel. Bisher ging man davon aus, dass der prozentuale Anteil an „vergifteten“ Daten für einen erfolgreichen Angriff entscheidend sei. Die Studie belegt nun: Es ist die absolute Anzahl der manipulierten Beispiele, die zählt – und diese bleibt über verschiedene Modellgrößen hinweg nahezu konstant.
Der Angriff: unbemerkt und überraschend simpel
Für die bisher größte Untersuchung dieser Art trainierten die Forscher:innen Modelle mit einer Größe von 600 Millionen bis 13 Milliarden Parametern. Das Ergebnis: Bereits rund 250 gezielt präparierte Dokumente reichten aus, um in allen getesteten Modellen eine identische Backdoor zu implementieren, obwohl die größten Modelle auf einer zwanzigmal größeren Datenmenge trainiert wurden als die kleinsten.
Bei diesem sogenannten „Data Poisoning“-Angriff lernt das Modell, auf eine bestimmte, unauffällige Auslösephrase (Trigger) hin ein schädliches Verhalten zu zeigen. Im Experiment brachten die Forscher:innen den Modellen bei, auf einen Trigger hin nur noch unsinnigen Text auszugeben, sich ansonsten aber völlig normal zu verhalten. Diese unbemerkte Sabotage könnte in der Praxis weitreichende Folgen haben.
Die Autor:innen schreiben dazu: „Unsere Ergebnisse deuten darauf hin, dass die Injektion von Backdoors durch Datenvergiftung bei großen Modellen einfacher sein könnte als bisher angenommen, da die Anzahl der benötigten Gifte nicht mit der Modellgröße ansteigt.“ Dies mache deutlich, dass mehr Forschung zu Abwehrmechanismen notwendig sei.
Grenzen der Studie und realistische Risiken
Es ist wichtig, die Ergebnisse im richtigen Kontext zu betrachten. Die Untersuchung beschränkte sich auf Modelle bis zu 13 Milliarden Parametern, während moderne Systeme wie GPT-4 von OpenAI oder Claude 3 von Anthropic selbst weit mehr Parameter besitzen dürften. Zudem wurden primär simple Angriffe getestet; ob die Erkenntnisse auch für komplexere Sabotageakte gelten, bleibt offen.
Wie auch Ars Technica hervorhebt, gibt es effektive Gegenmaßnahmen. Das bereits etablierte Sicherheitstraining, bei dem Modelle lernen, schädliche Anfragen abzulehnen, schwächt solche simplen Backdoors erheblich. Die Studie zeigt, dass nur 50 bis 100 „saubere“ Gegenbeispiele die Backdoor deutlich abschwächten, während 2.000 sie nahezu vollständig eliminierten.
Die größte Hürde für Angreifer:innen bleibt ohnehin die Einschleusung der manipulierten Dokumente in die hochkuratierten Trainingsdatensätze der großen KI-Unternehmen. Dieser Zugang ist der entscheidende, aber auch schwierigste Schritt für eine erfolgreiche Manipulation.
Ein Weckruf für die KI-Branche
Trotz der Einschränkungen ist die Studie ein wichtiger Weckruf. Die Erkenntnis, dass der Angriffsaufwand nicht mit der Datensatzgröße skaliert, verschiebt die Perspektive auf die KI-Sicherheit fundamental.
Statt sich auf prozentuale Verunreinigungen zu konzentrieren, müssen Sicherheitsstrategien darauf ausgelegt sein, auch eine kleine, feste Anzahl schädlicher Beispiele zuverlässig zu erkennen. Die Qualität und Herkunft der Trainingsdaten rücken damit noch stärker in den Mittelpunkt der Entwicklung sicherer und vertrauenswürdiger KI-Systeme.
Spannende und zugleich alarmierende Erkenntnisse – zeigt deutlich, wie fragil KI-Systeme trotz ihrer Größe noch sind. Gerade die Idee, dass nur rund 250 manipulierte Dokumente ausreichen, ist erschreckend. Sicherheit und Datenintegrität müssen künftig noch stärker priorisiert werden – ähnlich wie man bei sensiblen Blockchain-Prozessen oder Plattformen wie cryptoflash2.com auf absolute Verlässlichkeit achtet.