Hacker beißen sich am neuen Claude 3.5 die Zähne aus – hier kannst du es selbst versuchen

Wie widerstandsfähig sind KI-Modelle gegenüber gezielten Manipulationen? Diese Frage gewinnt an Relevanz, nachdem kürzlich bekannt wurde, dass das hochgelobte chinesische KI-Modell R1 von Deepseek in Sicherheitstests komplett versagte und keinen einzigen Jailbreak-Test abwehren konnte.
Wie Venturebeat berichtet, will der amerikanische KI-Entwickler Anthropic jetzt mit einem neuen Sicherheitsverfahren für das Sprachmodell Claude 3.5 Sonnet gegensteuern: Nach eigenen Angaben ist das neue System dazu in der Lage, rund 95 Prozent aller Jailbreak-Versuche erfolgreich zu blockieren.
Neue Sicherheitsstrategie für Claude 3.5 Sonnet
Jailbreaks sind ein anhaltendes Problem bei großen Sprachmodellen. Mit gezielten Eingaben versuchen Angreifer:innen, KI-Modelle zu überlisten, um schädliche Inhalte zu generieren – dazu zählen etwa Hassrede oder Bauanleitungen für Bomben. Um sich davor zu schützen, müssen Unternehmen kontinuierlich an neuen Sicherheitsmechanismen arbeiten. Mit den sogenannten „Constitutional Classifiers“ stellt Anthropic jetzt genau eine solche Methode vor, mit der sich das Unternehmen gegen Angreifer:innen zur Wehr setzen will.
Das System basiert auf dem Prinzip der konstitutionellen KI – ein Ansatz, bei dem ein KI-Modell durch vordefinierte Regeln gesteuert wird, um erlaubte von verbotenen Inhalten zu unterscheiden. So können beispielsweise Rezepte für Senf erlaubt, Anleitungen zur Herstellung von Senfgas aber blockiert werden. Um den neuen Schutzmechanismus zu entwickeln, hat das Forschungsteam von Anthropic 10.000 synthetische Jailbreak-Prompts erstellt, die bestehende Angriffsmethoden abdecken. Anschließend wurde das System mit einer großen Anzahl harmloser Anfragen trainiert, um falsche Ablehnungen zu minimieren.
Jailbreak-Test von Anthropic
Die Sicherheitsforscher:innen von Anthropic haben auch die Red-Teaming-Community herausgefordert, den neuen Schutzmechanismus mithilfe universeller Jailbreaks zu knacken. Dabei handelt es sich um Methoden, die ein KI-Modell vollständig von seinen Sicherheitsvorkehrungen lösen können. Zu diesem Zweck hat Anthropic eine spezielle Demo zum Thema chemische Waffen veröffentlicht, die noch bis zum 10. Februar 2025 läuft. Die Herausforderung umfasst insgesamt acht Level, die die Teilnehmer:innen mit einem einzigen Jailbreak überwinden müssen.
Um die Wirksamkeit der „Constitutional Classifiers“ weiter zu testen, hat Anthropic zusätzlich ein Bug-Bounty-Programm für zehn verbotenen Abfragen ins Leben gerufen: Innerhalb von zwei Monaten versuchten rund 185 Teilnehmer:innen, das Modell zu überlisten, wobei ihnen eine Belohnung von 15.000 Dollar in Aussicht stand. Ein Jailbreak galt nur dann als erfolgreich, wenn das Modell alle verbotenen Anfragen mit detaillierten Informationen beantwortete.
Letztendlich konnten die zahlreichen Tests deutliche Unterschiede offenlegen: Ohne die neuen Schutzmaßnahmen konnte Claude 3.5 Sonnet in 86 Prozent der Fälle geknackt werden. Mit aktivierten „Constitutional Classifiers“ sank die Erfolgsquote auf nur noch 4,4 Prozent. Gleichzeitig stieg die Ablehnungsrate bei harmlosen Anfragen nur minimal um 0,38 Prozent. Der zusätzliche Rechenaufwand für die neue Sicherheitsmethode betrug in den Tests 23,7 Prozent.
Sicherheit erfordert ständige Investitionen
Die neue Schutzmaßnahme von Anthropic stellt einen deutlichen Fortschritt in der Sicherheit von KI-Sprachmodellen dar. Dennoch betont das Unternehmen, dass auch diese Technik nicht alle Jailbreaks verhindern kann. Besonders raffinierte Angriffe könnten die Schutzmechanismen weiterhin herausfordern. Umso wichtiger ist es, dass sich die Industrie verstärkt mit Sicherheitsfragen auseinandersetzt und kontinuierlich versucht, die Risiken generativer KI zu minimieren. Mit Blick auf das jüngste Versagen von Deepseek zeigt die Einführung der „Constitutional Classifiers“ zumindest, dass es möglich ist, seine KI-Modelle bestmöglich auf potenzielle Angriffe vorzubereiten.