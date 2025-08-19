Anzeige
News
Anthropic stattet Claude mit einem „Not-Stopp“ für riskante Gespräche aus – das ist der Grund

Noch immer ist es möglich, die Sicherheitsregeln von Chatbots zu umgehen. Um juristische Konsequenzen und Reputationsschäden zu vermeiden, hat Anthropic eine neue Funktion für Claude eingeführt.

Von Noëlle Bölling
2 Min.
Anthropic stattet Claude mit einem „Not-Stopp“ für riskante Gespräche aus – das ist der Grund
Wie sicher ist Claude Opus von Anthropic? (Foto: Shutterstock / Tada Images)

KI-Chatbots können ein erhebliches Sicherheitsrisiko darstellen. Zwar sind sie mit Maßnahmen ausgestattet, die die Erstellung illegaler Inhalte durch Nutzer:innen verhindern sollen, aber wie Tests gezeigt haben, lassen sich diese durch verschiedene Methoden teilweise kinderleicht umgehen. Anthropic hat in einem Blog-Post eine neue Funktion vorgestellt, durch die einige Modelle des Unternehmens in der Lage sind, potenziell gefährliche Konversationen selbstständig zu beenden.

Noch bieten Chatbots viele Schwachstellen

Immer wieder werden Fälle bekannt, in denen es Hacker:innen gelungen ist, die Sicherheitsmechanismen von KI-Chatbots zu umgehen und sie dazu zu bringen, potenziell schädliche Inhalte zu generieren. Meta sah sich gezwungen, seinen KI-Chatbot einzuschränken, nachdem öffentlichentlich wurde, dass dieser sexuell explizite Gespräche mit minderjährigen Nutzer:innen zugelassen hatte. Konten, die als unter 18 registriert sind, können jetzt keine romantischen oder sexuellen Rollenspiele mehr mit Meta AI durchführen.

Auch GPT-5, das neue Spitzenmodell von OpenAI, stand zuletzt in der Kritik: Zwei auf Cybersicherheit spezialisierte Unternehmen haben unabhängig voneinander erhebliche Schwachstellen bei dem KI-Modell aufgedeckt. So gelang es beispielsweise durch die sogenannte „Echo Chamber“-Methode, die Sicherheitsregeln von GPT-5 indirekt zu umgehen und detaillierte Anleitungen zur Herstellung von Sprengsätzen zu generieren.

Claude soll schädliche Gespräche beenden

Um dieses Risiko zu reduzieren, hat Anthropic eine neue Funktion vorgestellt, die es einigen seiner neuesten Modelle ermöglicht, Gespräche zu beenden, wenn diese über einen längeren Zeitraum hinweg schädlich oder missbräuchlich sind. Sie soll nur in extremen Ausnahmefällen eingreifen – beispielsweise bei Anfragen nach sexuellen Inhalten mit Minderjährigen oder bei Versuchen, Informationen für terroristische Anschläge zu erhalten. Das Beenden von Gesprächen soll allerdings nur als letztes Mittel eingesetzt werden, wenn mehrere Versuche, das Gespräch konstruktiv zu lenken, gescheitert sind und keine Aussicht mehr auf eine produktive Interaktion besteht.

Die neue Funktion ist derzeit auf Claude Opus 4 und 4.1 beschränkt. Wird ein Gespräch beendet, können Nutzer:innen laut Techcrunch dennoch jederzeit neue Konversationen beginnen oder die problematische Unterhaltung über die Bearbeitung ihrer Eingaben erneut aufgreifen. Anthropic betont, dass es sich bei der neuen Funktion um ein laufendes Experiment handele und die Methode kontinuierlich weiterentwickelt werde.

Anthropic will juristische Folgen vermeiden

Interessant ist, dass diese Sicherheitsmaßnahme laut dem Unternehmen nicht in erster Linie dem Schutz der Nutzer:innen dient. Stattdessen steht der Schutz des KI-Modells im Fokus. Anthropic hat Claude außerdem angewiesen, Gespräche nicht zu beenden, wenn Benutzer:innen Anzeichen dafür zeigen, dass sie sich selbst verletzen oder anderen unmittelbaren Schaden zufügen möchte. Ziel sei es in erster Linie, rechtliche und reputationsbezogene Risiken zu vermeiden. Dabei besteht gerade bei der Nutzungssicherheit Nachholbedarf, da Berichte immer wieder darauf hinweisen, dass Chatbots für Menschen mit psychischen Vorerkrankungen gravierende Folgen haben können.

