Anzeige
Anzeige
News

Hacker beißen sich am neuen Claude 3.5 die Zähne aus – hier kannst du es selbst versuchen

Die Sicherheit großer Sprachmodelle bleibt weiterhin ein Problem. KI-Unternehmen Anthropic zeigt jetzt, wie ein großteil aller schädlichen Prompts abgewehrt werden können – und fordert die Community heraus.

Von Noëlle Bölling
2 Min.
Artikel merken
Anzeige
Anzeige
Anthropic lädt ethische Hacker:innen dazu ein, es mit Claude 3.5 aufzunehmen. (Bild: gguy/Shutterstock)

Wie widerstandsfähig sind KI-Modelle gegenüber gezielten Manipulationen? Diese Frage gewinnt an Relevanz, nachdem kürzlich bekannt wurde, dass das hochgelobte chinesische KI-Modell R1 von Deepseek in Sicherheitstests komplett versagte und keinen einzigen Jailbreak-Test abwehren konnte.

Anzeige
Anzeige

Wie Venturebeat berichtet, will der amerikanische KI-Entwickler Anthropic jetzt mit einem neuen Sicherheitsverfahren für das Sprachmodell Claude 3.5 Sonnet gegensteuern: Nach eigenen Angaben ist das neue System dazu in der Lage, rund 95 Prozent aller Jailbreak-Versuche erfolgreich zu blockieren.

Neue Sicherheitsstrategie für Claude 3.5 Sonnet

Jailbreaks sind ein anhaltendes Problem bei großen Sprachmodellen. Mit gezielten Eingaben versuchen Angreifer:innen, KI-Modelle zu überlisten, um schädliche Inhalte zu generieren – dazu zählen etwa Hassrede oder Bauanleitungen für Bomben. Um sich davor zu schützen, müssen Unternehmen kontinuierlich an neuen Sicherheitsmechanismen arbeiten. Mit den sogenannten „Constitutional Classifiers“ stellt Anthropic jetzt genau eine solche Methode vor, mit der sich das Unternehmen gegen Angreifer:innen zur Wehr setzen will.

Anzeige
Anzeige

Das System basiert auf dem Prinzip der konstitutionellen KI – ein Ansatz, bei dem ein KI-Modell durch vordefinierte Regeln gesteuert wird, um erlaubte von verbotenen Inhalten zu unterscheiden. So können beispielsweise Rezepte für Senf erlaubt, Anleitungen zur Herstellung von Senfgas aber blockiert werden. Um den neuen Schutzmechanismus zu entwickeln, hat das Forschungsteam von Anthropic 10.000 synthetische Jailbreak-Prompts erstellt, die bestehende Angriffsmethoden abdecken. Anschließend wurde das System mit einer großen Anzahl harmloser Anfragen trainiert, um falsche Ablehnungen zu minimieren.

Anzeige
Anzeige

Jailbreak-Test von Anthropic

Die Sicherheitsforscher:innen von Anthropic haben auch die Red-Teaming-Community herausgefordert, den neuen Schutzmechanismus mithilfe universeller Jailbreaks zu knacken. Dabei handelt es sich um Methoden, die ein KI-Modell vollständig von seinen Sicherheitsvorkehrungen lösen können. Zu diesem Zweck hat Anthropic eine spezielle Demo zum Thema chemische Waffen veröffentlicht, die noch bis zum 10. Februar 2025 läuft. Die Herausforderung umfasst insgesamt acht Level, die die Teilnehmer:innen mit einem einzigen Jailbreak überwinden müssen.

Um die Wirksamkeit der „Constitutional Classifiers“ weiter zu testen, hat Anthropic zusätzlich ein Bug-Bounty-Programm für zehn verbotenen Abfragen ins Leben gerufen: Innerhalb von zwei Monaten versuchten rund 185 Teilnehmer:innen, das Modell zu überlisten, wobei ihnen eine Belohnung von 15.000 Dollar in Aussicht stand. Ein Jailbreak galt nur dann als erfolgreich, wenn das Modell alle verbotenen Anfragen mit detaillierten Informationen beantwortete.

Anzeige
Anzeige

Letztendlich konnten die zahlreichen Tests deutliche Unterschiede offenlegen: Ohne die neuen Schutzmaßnahmen konnte Claude 3.5 Sonnet in 86 Prozent der Fälle geknackt werden. Mit aktivierten „Constitutional Classifiers“ sank die Erfolgsquote auf nur noch 4,4 Prozent. Gleichzeitig stieg die Ablehnungsrate bei harmlosen Anfragen nur minimal um 0,38 Prozent. Der zusätzliche Rechenaufwand für die neue Sicherheitsmethode betrug in den Tests 23,7 Prozent.

Sicherheit erfordert ständige Investitionen

Die neue Schutzmaßnahme von Anthropic stellt einen deutlichen Fortschritt in der Sicherheit von KI-Sprachmodellen dar. Dennoch betont das Unternehmen, dass auch diese Technik nicht alle Jailbreaks verhindern kann. Besonders raffinierte Angriffe könnten die Schutzmechanismen weiterhin herausfordern. Umso wichtiger ist es, dass sich die Industrie verstärkt mit Sicherheitsfragen auseinandersetzt und kontinuierlich versucht, die Risiken generativer KI zu minimieren. Mit Blick auf das jüngste Versagen von Deepseek zeigt die Einführung der „Constitutional Classifiers“ zumindest, dass es möglich ist, seine KI-Modelle bestmöglich auf potenzielle Angriffe vorzubereiten.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige