Anzeige
Anzeige
Anzeige
Anzeige
News
Verpasse keine News mehr!

Sicherheitslücken: 250 manipulierte Dokumente reichen aus, um Sprachmodelle zu kapern

Was, wenn der Aufwand, eine KI zu sabotieren, nicht mit ihrer Größe wächst? Eine neue Entdeckung stellt bisherige Annahmen zur KI-Sicherheit auf den Kopf und zeigt eine fundamentale, bisher übersehene Schwachstelle auf.

2 Min.
Artikel merken
Anzeige
Anzeige

KI lässt sich mit einfachen Tricks hintergehen. (Foto: Dall-E / t3n)

Eine neue Studie liefert beunruhigende Erkenntnisse zur Sicherheit großer Sprachmodelle (LLMs). Ein Team von Forscher:innen des KI-Sicherheitsunternehmens Anthropic aus San Francisco, des UK AI Security Institute und des Alan Turing Institute, beide im britischen London ansässig, hat gezeigt, dass eine überraschend geringe Anzahl manipulierter Dokumente ausreicht, um eine schädliche Hintertür, eine sogenannte Backdoor, in einem KI-Modell zu verankern.

Anzeige
Anzeige

Die zentrale Erkenntnis, die in einem auf der Pre-Print-Plattform Arxiv der Cornell University veröffentlichten Paper dargelegt wird, ist ein Paradigmenwechsel. Bisher ging man davon aus, dass der prozentuale Anteil an „vergifteten“ Daten für einen erfolgreichen Angriff entscheidend sei. Die Studie belegt nun: Es ist die absolute Anzahl der manipulierten Beispiele, die zählt – und diese bleibt über verschiedene Modellgrößen hinweg nahezu konstant.

Der Angriff: unbemerkt und überraschend simpel

Für die bisher größte Untersuchung dieser Art trainierten die Forscher:innen Modelle mit einer Größe von 600 Millionen bis 13 Milliarden Parametern. Das Ergebnis: Bereits rund 250 gezielt präparierte Dokumente reichten aus, um in allen getesteten Modellen eine identische Backdoor zu implementieren, obwohl die größten Modelle auf einer zwanzigmal größeren Datenmenge trainiert wurden als die kleinsten.

Anzeige
Anzeige

Bei diesem sogenannten „Data Poisoning“-Angriff lernt das Modell, auf eine bestimmte, unauffällige Auslösephrase (Trigger) hin ein schädliches Verhalten zu zeigen. Im Experiment brachten die Forscher:innen den Modellen bei, auf einen Trigger hin nur noch unsinnigen Text auszugeben, sich ansonsten aber völlig normal zu verhalten. Diese unbemerkte Sabotage könnte in der Praxis weitreichende Folgen haben.

Die Autor:innen schreiben dazu: „Unsere Ergebnisse deuten darauf hin, dass die Injektion von Backdoors durch Datenvergiftung bei großen Modellen einfacher sein könnte als bisher angenommen, da die Anzahl der benötigten Gifte nicht mit der Modellgröße ansteigt.“ Dies mache deutlich, dass mehr Forschung zu Abwehrmechanismen notwendig sei.

Grenzen der Studie und realistische Risiken

Es ist wichtig, die Ergebnisse im richtigen Kontext zu betrachten. Die Untersuchung beschränkte sich auf Modelle bis zu 13 Milliarden Parametern, während moderne Systeme wie GPT-4 von OpenAI oder Claude 3 von Anthropic selbst weit mehr Parameter besitzen dürften. Zudem wurden primär simple Angriffe getestet; ob die Erkenntnisse auch für komplexere Sabotageakte gelten, bleibt offen.

Wie auch Ars Technica hervorhebt, gibt es effektive Gegenmaßnahmen. Das bereits etablierte Sicherheitstraining, bei dem Modelle lernen, schädliche Anfragen abzulehnen, schwächt solche simplen Backdoors erheblich. Die Studie zeigt, dass nur 50 bis 100 „saubere“ Gegenbeispiele die Backdoor deutlich abschwächten, während 2.000 sie nahezu vollständig eliminierten.

Anzeige
Anzeige

Die größte Hürde für Angreifer:innen bleibt ohnehin die Einschleusung der manipulierten Dokumente in die hochkuratierten Trainingsdatensätze der großen KI-Unternehmen. Dieser Zugang ist der entscheidende, aber auch schwierigste Schritt für eine erfolgreiche Manipulation.

Ein Weckruf für die KI-Branche

Trotz der Einschränkungen ist die Studie ein wichtiger Weckruf. Die Erkenntnis, dass der Angriffsaufwand nicht mit der Datensatzgröße skaliert, verschiebt die Perspektive auf die KI-Sicherheit fundamental.

Statt sich auf prozentuale Verunreinigungen zu konzentrieren, müssen Sicherheitsstrategien darauf ausgelegt sein, auch eine kleine, feste Anzahl schädlicher Beispiele zuverlässig zu erkennen. Die Qualität und Herkunft der Trainingsdaten rücken damit noch stärker in den Mittelpunkt der Entwicklung sicherer und vertrauenswürdiger KI-Systeme.

Anzeige
Anzeige
Kommentare (1)

Community-Richtlinien

Jerry Keeling

Spannende und zugleich alarmierende Erkenntnisse – zeigt deutlich, wie fragil KI-Systeme trotz ihrer Größe noch sind. Gerade die Idee, dass nur rund 250 manipulierte Dokumente ausreichen, ist erschreckend. Sicherheit und Datenintegrität müssen künftig noch stärker priorisiert werden – ähnlich wie man bei sensiblen Blockchain-Prozessen oder Plattformen wie cryptoflash2.com auf absolute Verlässlichkeit achtet.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren