Cyberkriminalität mit KI: Diese Large Language Models nutzen Hacker immer öfter
Während einschlägige Schwarzmark-Services wie WormGPT recht brauchbaren Schadcode produzieren, kann ein Großteil ihrer Phishing-Versuche von menschlichen Nutzern noch immer als solche erkannt werden. Technische Einzelheiten veröffentlichten Forschende jetzt in einem Preprint Paper.
Darin untersucht das Team die wachsende Bedrohung durch sogenannte „Malicious LLM Applications“ – von den Forschenden kurz „Malla“ genannt. Diese Anwendungen nutzen die Fähigkeiten von großen Sprachmodellen, um schädliche Aktivitäten durchzuführen, wie das Erstellen von bösartigem Code, das Entwerfen von Phishing-E-Mails oder dem Schreiben von Code für betrügerische Websites. Mit Malla können selbst technisch wenig versierte Personen komplexe Cyberangriffe durchführen, was nach Auffassung der Forschenden „die Bedrohungslandschaft auf ein beispielloses Niveau hebt“. Die Studie soll nicht nur Einblicke in das wirtschaftliche Ökosystem dieser Services ermöglichen, sondern auch helfen, Gegenmaßnahmen zu entwickeln.
APIs von großen Sprachmodellen im Visier
Um ihre kriminellen Dienste anzubieten, nutzen die Malla-Betreiber keine eigenen großen Sprachmodelle. Sie greifen vielmehr auf APIs vorhandener Sprachmodelle zurück, deren Sicherheitsmechanismen sie durch spezielle Prompts umgehen. Neben Sprachmodellen von OpenAI und Anthropic nutzen sie aber auch zunehmend sogenannte „unzensierte“ Sprachmodelle oder Open-Source-Modelle, die zum Beispiel auf Hugginface gehostet werden.
Die Studie identifiziert insgesamt acht große Sprachmodelle, die von Mallas genutzt werden, sowie 182 Prompts, die Schutzmaßnahmen öffentlicher LLM-APIs umgehen. GPT-3.5-turbo war das am häufigsten von Mallas angegriffene LLM. Andere missbrauchte OpenAI-Modelle waren Davinci-003 und Davinci-002, die allerdings im Januar 2024 von OpenAI abgeschaltet wurden. Auch Claude-instant und Claude-2–100k wurden als Backend-identifiziert, während im Open-Source-Bereich Varianten von Metas Modell Llama-2 ausgenutzt wurden.
Den Ergebnissen der Studie zufolge wiesen mehrere Malla-Dienste besorgniserregende Fähigkeiten auf. Insbesondere bei der Generierung von bösartigem Code. Der Malla-Service produzierte Schadcodes, die in keinem der Testfälle von VirusTotal entdeckt wurden, während WolfGPT besonders bei der Erstellung von Phishing-E-Mails hervorstach.
WolfGPT, Evil-GPT und DarkGPT stellen Betrieb ein
Die Untersuchung zeigt auch, dass Gegenmaßnahmen durchaus Wirkung zeigen können. WolfGPT, Evil-GPT und DarkGPT beispielsweise stellten den Betrieb ein, nachdem sie die Modelle von OpenAI DaVinci-002 und DaVinci-003 nicht mehr nutzen konnten. BadGPT und EscapeGPT wurden aufgrund der Schließung ihrer Hosting-Websites unzugänglich. WormGPT kündigte die Schließung seines Projekts aufgrund des Drucks durch Medienberichte an.
Problematisch ist aus Sicht der Forschenden allerdings die Verfügbarkeit immer mächtigerer Open-Source-Modelle und „unzensierter“ KIs, deren Betreiber absichtlich keinerlei Sicherheitsmaßnahmen gegen Missbrauch vorsehen. Die Autor:innen des Papers plädieren hier für eine moderate Einschränkung: Zugang zu diesen Modellen sollen nur „vertrauenswürdige“ Akteure bekommen. Der Vorschlag dürfte nicht ohne Widerspruch bleiben.