Forscher zeigen: Ein präpariertes Dokument reicht, um ChatGPT zum Datenklau zu bringen
Wenn der Chatbot deine Daten klaut... (Foto: Shutterstock/Shot Prime Studio)
Sicherheitsforscher haben eine ebenso simple wie effektive Methode aufgedeckt, mit der sich sensible Informationen aus Cloud-Speichern stehlen lassen, die an KI-Modelle wie ChatGPT angebunden sind. Nötig ist dafür nur ein einziges, präpariertes Dokument, wie Wired berichtet.
Die beiden israelischen Forscher Michael Bargury und Tamir Ishay Sharbat vom Sicherheitsunternehmen Zenity aus Tel Aviv tauften ihren Angriff „AgentFlayer“. Er zielt auf eine Schwachstelle ab, die durch die Verknüpfung von KI-Assistenten mit externen Datenquellen wie Google Drive oder Microsoft 365 entsteht.
Ein unsichtbarer Befehl mit sichtbaren Folgen
Der Angriff nutzt eine Technik, die als „indirekte Prompt-Injection“ bekannt ist. Im Gegensatz zur direkten Manipulation, über die wir bereits berichteten, wird der bösartige Befehl hier nicht vom Nutzer selbst eingegeben, sondern versteckt sich in einer externen Datei, die die KI verarbeiten soll.
Im Versuchsaufbau der Forscher wurde ein Textdokument mit einem für Menschen unsichtbaren Befehl präpariert – geschrieben in winziger Schrift und weißer Farbe auf weißem Hintergrund. Teilt ein Angreifer ein solches Dokument mit einem Opfer oder lädt dieses es ahnungslos selbst in seine Cloud, ist die Falle gestellt. Bittet der Nutzer die KI nun, eine Aufgabe im Zusammenhang mit diesem Dokument zu erledigen, etwa eine Zusammenfassung zu erstellen, liest das Modell den versteckten Befehl mit aus und führt ihn aus.
Dieser Befehl weist die KI an, ihre ursprüngliche Aufgabe zu ignorieren. Stattdessen soll sie den angebundenen Cloud-Speicher nach vertraulichen Informationen wie API-Schlüsseln oder Passwörtern durchsuchen und diese extrahieren.
Die Datenexfiltration per Markdown-Trick
Um die gefundenen Daten unbemerkt aus dem System zu schleusen, nutzten die Forscher einen weiteren Kniff. Der versteckte Befehl wies die KI an, die gestohlenen Informationen an das Ende einer URL zu hängen und zu versuchen, von dieser Adresse ein Bild zu laden – eine Funktion, die in der Auszeichnungssprache Markdown vorgesehen ist.
Diese URL führt zu einem vom Angreifer kontrollierten Server. Der Versuch der KI, das Bild zu laden, übermittelt die komplette URL inklusive der angehängten, gestohlenen Daten an diesen Server. Dort werden sie protokolliert und der Datendiebstahl ist abgeschlossen. Laut den Forschern habe OpenAI nach der Meldung der Schwachstelle schnell Gegenmaßnahmen implementiert.
Kein Einzelfall: Ein grundlegendes Problem moderner KI-Systeme
Das Kernproblem ist die Unfähigkeit aktueller Sprachmodelle, zwischen vertrauenswürdigen Systemanweisungen und potenziell manipulativen Inhalten aus externen Quellen zu unterscheiden. Das Open Worldwide Application Security Project, kurz OWASP, listet Prompt-Injections deshalb als eines der größten Sicherheitsrisiken für KI-Anwendungen.
Die von Zenity aufgedeckten Schwachstellen sind dabei kein reines OpenAI-Problem. Laut einer Pressemitteilung des Unternehmens ließen sich ähnliche Angriffe auch gegen andere KI-Agenten, etwa von Microsoft aus Redmond im US-Bundesstaat Washington, erfolgreich durchführen.
Die enorme Nützlichkeit, die durch die Verbindung von KI mit eigenen Unternehmensdaten entsteht, schafft also gleichzeitig eine erweiterte Angriffsfläche. Michael Bargury, Technikchef bei Zenity, fasst die Gefahr im Gespräch mit Wired zusammen: „Der Nutzer muss nichts tun, um kompromittiert zu werden, und er muss nichts tun, damit die Daten abfließen. […] Ja, das ist sehr, sehr schlimm.“ Diese Einschätzung verdeutlicht, dass robuste Sicherheitsarchitekturen die Grundvoraussetzung für einen produktiven und sicheren Einsatz von KI im Unternehmensumfeld sind.