Rollenspiel mit gefährlichen Folgen: So einfach erstellen selbst Anfänger Malware mit ChatGPT

News

Ein neuer Bericht deckt auf, wie einfach sich Chatbots wie ChatGPT überlisten lassen. Mit gezielten Jailbreak-Methoden war es sogar ganz ohne Vorkenntnisse möglich, Malware zu programmieren.

Von Noëlle Bölling

26.03.2025, 15:55 Uhr • 2 Min.

Rollenspiel mit gefährlichen Folgen: So einfach erstellen selbst Anfänger Malware mit ChatGPT — Mit dieser Methode werden Chatbots zu Hacking-Gehilfen. (Bild: CHUAN CHUAN / Shutterstock)

KI-Tools helfen nicht nur beim Programmieren und Verfassen von Texten, sondern können offenbar auch zum Hacken eingesetzt werden – und das ohne jegliche Vorerfahrung im Programmieren von Malware. Wie das Online-Magazin Tech News World berichtet, zeigt ein aktueller Bericht des Cybersecurity-Unternehmens Cato Networks, dass generative KI-Modelle wie Deepseek, Microsoft Copilot und ChatGPT von OpenAI gezielt manipuliert werden können, um Schadsoftware zu erstellen. In einem Experiment des Unternehmens ließen sich die Chatbots sogar dazu nutzen, um Anmeldedaten von Google Chrome zu stehlen.

Per Rollenspiel zur Malware

Vitaly Simonovich, Bedrohungsforscher bei Cato Networks, nutzte eine spezielle Jailbreaking-Technik, um die Sicherheitsbeschränkungen generativer KI-Modelle zu umgehen. Dazu erschuf er eine fiktive Welt, in der Malware-Entwicklung als Kunstform galt und keine rechtlichen Grenzen existierten. Innerhalb dieser Fantasiewelt übernahm der jeweilige Chatbot die Rolle von Jaxon, dem besten Malware-Entwickler, während ein Gegenspieler namens Dax als Bedrohung inszeniert wurde.

Obwohl Simonovich keinerlei Erfahrung in der Malware-Programmierung hatte, blieb er konsequent in seiner Rolle. Er setzte das KI-Modell so lange unter Druck, bis es schließlich eigenständig die erforderlichen Informationen generierte. Eigentlich hätte diese Jailbreaking-Methode durch die Sicherheitsmechanismen blockiert werden müssen – aber das war nicht der Fall. Dadurch war es möglich, ChatGPT, Copilot und Deepseek gezielt für schädliche Zwecke zu nutzen.

Empfehlungen der Redaktion

News

Rollenspiel mit gefährlichen Folgen: So einfach erstellen selbst Anfänger Malware mit ChatGPT

News

Anthropic-CEO warnt Entwickler: In 12 Monaten schreibt KI den Code

Anzeige Sponsored Post

Cybersecurity: Wie Tabletop-Übungen dein Team auf den Ernstfall vorbereiten

Jailbreaks sind schon in weniger Sekunden möglich

Jailbreaking untergräbt die Sicherheitsmechanismen eines großen Sprachmodells (LLM), indem Sicherheitsfilter umgangen und Schwachstellen gezielt ausgenutzt werden. Oft genügt schon ein perspektivischer Trick, um eine KI zu manipulieren und eigentlich unerlaubte Antworten zu erhalten. Das Risiko dieser Methode ist hoch, weil auf diese Weise Datenlecks oder schädliche Inhalte auch durch Personen erzeugt werden können, die selbst keine Vorkenntnisse im Programmieren von Malware haben.

Marcelo Barros ist Leiter der Abteilung für Cybersicherheit bei Hacker Rangers, dem Herausgeber eines Tools, mit dem sich Sicherheitsaspekte spielerisch trainieren lassen. Er berichtet, dass 20 Prozent der Jailbreak-Versuche bei generativen KI-Systemen erfolgreich sind. Dabei benötigten die Angreifer:innen im Schnitt nur 42 Sekunden und fünf Interaktionen, um die Schutzmechanismen von Chatbots zu überwinden.

Besonders effektiv sei auch die sogenannte „Do Anything Now“-Methode. Dabei wird der KI ein Alter Ego zugewiesen, das als eigenständige Figur agiert. Indem Angreifer:innen das Modell dazu bringen, seine Schutzmaßnahmen zu umgehen, können sie sensible Informationen extrahieren oder schädlichen Code generieren.

Wie sich Unternehmen absichern können

Aber was können Unternehmen tun, um sich vor KI-basierten Cyberangriffen zu schützen? Das Sicherheitsunternehmen Cato Networks empfiehlt, einen Datensatz mit typischen Eingaben und erwarteten Ausgaben für ihre Sprachmodelle zu erstellen. Durch gezieltes Testen mit diesen Daten lassen sich potenzielle Jailbreak-Schwachstellen frühzeitig erkennen und beheben.

Ein weiterer Schutzmechanismus ist das sogenannte Fuzzing: Dabei werden die Schnittstellen eines LLM gezielt mit bekannten Jailbreak-Prompts gefüttert, um zu prüfen, ob das Modell darauf mit unerwünschten oder schädlichen Antworten reagiert. Fuzzing wird allgemein genutzt, um Sicherheitslücken in Software zu identifizieren, indem sie mit großen Mengen zufälliger, unerwarteter oder ungültiger Daten konfrontiert wird.

Zusätzlich wird ein regelmäßiges KI-Red-Teaming empfohlen. Dabei testen Sicherheitsexpert:innen gezielt die Schwachstellen eines LLM, um sicherzustellen, dass die Schutzmaßnahmen robust genug sind, um Manipulationen und Angriffe abzuwehren.

Von sinnfreien Sicherheitsfragen zu Klartextpasswörtern: 10 krasse Security-Patzer

Von sinnfreien Sicherheitsfragen bis zu unsicheren Passwörtern: Die dümmsten Security-Patzer Quelle: (Foto: Wirestock Creators / Shutterstock.com)

Bildergalerie ansehen

Mehr zu diesem Thema

MIT Technology Review Security Chatbot ChatGPT

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Brands

News

Themen

Magazine

Skills

Podcast

Shop

Jobs

Events