Rollenspiel mit gefährlichen Folgen: So einfach erstellen selbst Anfänger Malware mit ChatGPT

KI-Tools helfen nicht nur beim Programmieren und Verfassen von Texten, sondern können offenbar auch zum Hacken eingesetzt werden – und das ohne jegliche Vorerfahrung im Programmieren von Malware. Wie das Online-Magazin Tech News World berichtet, zeigt ein aktueller Bericht des Cybersecurity-Unternehmens Cato Networks, dass generative KI-Modelle wie Deepseek, Microsoft Copilot und ChatGPT von OpenAI gezielt manipuliert werden können, um Schadsoftware zu erstellen. In einem Experiment des Unternehmens ließen sich die Chatbots sogar dazu nutzen, um Anmeldedaten von Google Chrome zu stehlen.
Per Rollenspiel zur Malware
Vitaly Simonovich, Bedrohungsforscher bei Cato Networks, nutzte eine spezielle Jailbreaking-Technik, um die Sicherheitsbeschränkungen generativer KI-Modelle zu umgehen. Dazu erschuf er eine fiktive Welt, in der Malware-Entwicklung als Kunstform galt und keine rechtlichen Grenzen existierten. Innerhalb dieser Fantasiewelt übernahm der jeweilige Chatbot die Rolle von Jaxon, dem besten Malware-Entwickler, während ein Gegenspieler namens Dax als Bedrohung inszeniert wurde.
Obwohl Simonovich keinerlei Erfahrung in der Malware-Programmierung hatte, blieb er konsequent in seiner Rolle. Er setzte das KI-Modell so lange unter Druck, bis es schließlich eigenständig die erforderlichen Informationen generierte. Eigentlich hätte diese Jailbreaking-Methode durch die Sicherheitsmechanismen blockiert werden müssen – aber das war nicht der Fall. Dadurch war es möglich, ChatGPT, Copilot und Deepseek gezielt für schädliche Zwecke zu nutzen.
Jailbreaks sind schon in weniger Sekunden möglich
Jailbreaking untergräbt die Sicherheitsmechanismen eines großen Sprachmodells (LLM), indem Sicherheitsfilter umgangen und Schwachstellen gezielt ausgenutzt werden. Oft genügt schon ein perspektivischer Trick, um eine KI zu manipulieren und eigentlich unerlaubte Antworten zu erhalten. Das Risiko dieser Methode ist hoch, weil auf diese Weise Datenlecks oder schädliche Inhalte auch durch Personen erzeugt werden können, die selbst keine Vorkenntnisse im Programmieren von Malware haben.
Marcelo Barros ist Leiter der Abteilung für Cybersicherheit bei Hacker Rangers, dem Herausgeber eines Tools, mit dem sich Sicherheitsaspekte spielerisch trainieren lassen. Er berichtet, dass 20 Prozent der Jailbreak-Versuche bei generativen KI-Systemen erfolgreich sind. Dabei benötigten die Angreifer:innen im Schnitt nur 42 Sekunden und fünf Interaktionen, um die Schutzmechanismen von Chatbots zu überwinden.
Besonders effektiv sei auch die sogenannte „Do Anything Now“-Methode. Dabei wird der KI ein Alter Ego zugewiesen, das als eigenständige Figur agiert. Indem Angreifer:innen das Modell dazu bringen, seine Schutzmaßnahmen zu umgehen, können sie sensible Informationen extrahieren oder schädlichen Code generieren.
Wie sich Unternehmen absichern können
Aber was können Unternehmen tun, um sich vor KI-basierten Cyberangriffen zu schützen? Das Sicherheitsunternehmen Cato Networks empfiehlt, einen Datensatz mit typischen Eingaben und erwarteten Ausgaben für ihre Sprachmodelle zu erstellen. Durch gezieltes Testen mit diesen Daten lassen sich potenzielle Jailbreak-Schwachstellen frühzeitig erkennen und beheben.
Ein weiterer Schutzmechanismus ist das sogenannte Fuzzing: Dabei werden die Schnittstellen eines LLM gezielt mit bekannten Jailbreak-Prompts gefüttert, um zu prüfen, ob das Modell darauf mit unerwünschten oder schädlichen Antworten reagiert. Fuzzing wird allgemein genutzt, um Sicherheitslücken in Software zu identifizieren, indem sie mit großen Mengen zufälliger, unerwarteter oder ungültiger Daten konfrontiert wird.
Zusätzlich wird ein regelmäßiges KI-Red-Teaming empfohlen. Dabei testen Sicherheitsexpert:innen gezielt die Schwachstellen eines LLM, um sicherzustellen, dass die Schutzmaßnahmen robust genug sind, um Manipulationen und Angriffe abzuwehren.
die Frage bleibt immer noch, warum berichtet t3n ausschließlich negativ über chatgpt & co, warum nicht ein einziges Mal positiv wenn t3n so neutral ist ???