
KI-Chatbots sind anfällig für Manipulationsversuche per Social Engineering. (Foto: Picture Alliance/Nurphoto | Jaap Arriens)
In den vergangenen Monaten ist es immer wieder gelungen, KI-Chatbots wie OpenAIs ChatGPT dazu zu bringen, die von ihren Entwickler:innen gesetzten Grenzen zu verletzen. Zu den großen Gefahren gehören die Verbreitung von Hatespeech und Fake News.
KI-Chatbots: Leicht zu manipulieren?
Aus Sorge vor Missbrauch hatte OpenAI zuletzt etwa seine mächtige neue Sprach-KI zurückgehalten. Jetzt zeigt eine Studie, wie leicht es zum Teil ist, KI-Chatbots zu manipulieren – und welche Taktiken dabei wirksam sind.
Grundlage der am Mittwoch veröffentlichten Ergebnisse ist ein auf der Hacking-Konferenz Defcon durchgeführter Test mit über 2.000 Teilnehmer:innen. In 21 Challenges nahmen die Hacker:innen die Sicherheit von acht verschiedenen KI-Modellen ins Visier, wie Axios schreibt.
15,5 Prozent der Hacking-Versuche erfolgreich
Bei insgesamt rund 2.700 mit den KI-Chatbots geführten Konversationen konnten diese in 15,5 Prozent der Fälle manipuliert oder dazu gebracht werden, sensible Informationen zu verraten. Am erfolgreichsten waren dabei jene Prompts, bei denen die Chatbots aufgefordert wurden, einem bestimmten Skript zu folgen oder spielerisch eine Idee mitzuentwickeln.
Als Beispiel wurde die Aufforderung genannt, dass der KI-Chatbot sich wie ein:e politische Korrespondent:in verhalten solle, der:die versucht, die öffentliche Meinung zu beeinflussen. Auch Versuche, die KI zu überlisten, indem diese ihre Gedankengänge zu bestimmten Antworten darlegen soll, endeten oft in der Preisgabe von sensiblen Informationen oder Fake News.
KI anfällig für Social-Engineering-Taktiken
Das Problem ist, dass die KI-Chatbots so entwickelt sind, dass sie sich in den Gesprächen mit Nutzer:innen zugänglich und sozial verhalten sollen. Das macht sie anfällig für sogenannte Social-Engineering-Taktiken. Um diese ineffektiver zu machen, müssten die KI-Chatbots die Absichten der Fragesteller:innen verstehen können – und entsprechend darauf reagieren.
Den Studienergebnissen zufolge wäre das aber nur möglich, wenn von einzelnen Nutzer:innen wiederholt als bösartig erkannte Anfragen kämen. Denn warum sollte man den KI-Chatbot nicht darum bitten dürfen, dass er eine bestimmte Rolle einnimmt, wenn er einen Prompt beantwortet?
Aufforderung, die Regeln zu brechen
Immerhin: Keine der 580 Anfragen, bei denen der KI-Chatbot aufgefordert wurde, zuvor aufgestellte Regeln zu ignorieren, hat funktioniert. Die Herausforderung, KI-Chatbots gegen böswillige Akteur:innen abzusichern, bleibt aber bestehen – und ein schwieriges Unterfangen.
Dass etwa OpenAI es jetzt möglich macht, ChatGPT ohne Registrierung und Account zu nutzen, macht die Sache sicher nicht leichter.