Forscher:innen um Nicholas Carlini ist es gelungen, „präzise, nicht-triviale Informationen“ aus KI-Sprachmodellen zu extrahieren, die eigentlich als Black Boxes gelten, also keine Einblicke in ihre Entscheidungen und Wirkweisen zulassen. Zu den betroffenen Sprach-KI zählen Schwergewicht wie OpenAIs ChatGPT und Googles Palm-2.
Bemerkenswert daran ist nicht zuletzt, dass Carlini und einige seiner Kolleg:innen selbst für Google arbeiten: Sie forschen für Deepmind an künstlicher Intelligenz.
Forscher:innen verschaffen sich Einblicke in Black Boxes
Es sei nur wenig öffentlich darüber bekannt, wie weitverbreitete Large-Language-Modelle wie GPT-4, Claude 2 oder Gemini genau funktionierten, schreiben die Autor:innen in ihrer am 11. März veröffentlichten Studie. Tatsächlich betreiben Unternehmen wie OpenAI und auch Google diese Modelle ganz bewusst als Black Boxes – so hat der Suchmaschinenkonzern etwa Anfang 2023 beschlossen, keine Forschungsergebnisse zu KI mehr zu veröffentlichen. Dahinter steckt wohl auch die Angst, der Konkurrenz in die Hände zu spielen.
Auch Sicherheitsbedenken könnten ein Grund sein, so die Forscher:innen weiter. Je weniger potenzielle Angreifer:innen über ein KI-Modell wissen, desto weniger Ansatzpunkte für ihre Attacken hätten sie. Über API, also Schnittstellen zu Drittanbietern, verfügen jedoch so gut wie alle Modelle.
Wie diese Schnittstellen genutzt werden könnten, um an Informationen über ein Sprachmodell zu gelangen, wollten die Wissenschaftler:innen herausfinden. Dafür haben sie sich des Model-Stealings – auch Model-Extraction-Attack genannt – bedient. Durch gezielte Anfragen an die API sollen Rückschlüsse zur Größe und weiteren Parametern der KI gezogen werden können.
Layers von GPT-4 und Palm-2 extrahiert
So ist es den Forscher:innen tatsächlich gelungen, die letzte Zwischenschicht sowohl von GPT-4 als auch Palm-2 zu extrahieren. Zwar soll es sich dabei nur um vergleichsweise unwichtige Layers handeln – doch sie geben aufschlussreiche Einblicke in die Modelle:
- Zunächst konnten die Forscher:innen die sogenannte Width der Modelle auslesen – sie wird oft in einen Zusammenhang mit der Gesamtzahl der Parameter gebracht.
- Zusätzlich werden die Sprach-KI so etwas weniger zu Black Boxes – auch wenn freilich nur ein kleiner Teil ihres Inneren ausgeforscht worden ist.
- Zu guter Letzt haben Carlini und sein Team den Beweis geliefert, dass es möglich ist, Black-Box-Modelle zu „hacken“ und Zugriff auf Parameter zu erlangen.
Die Forscher:innen beschreiben ihre Angriffstaktik als „effektiv und effizient“ – und sie soll bei allen KI-Modellen funktionieren, deren API alle Log-Wahrscheinlichkeiten oder einen Logit-Bias enthalten.
Google und OpenAI haben ihre API inzwischen übrigens angepasst, sodass künftige Angreifer:innen nicht mehr so einfach auf Layers zugreifen können. Darum, so schreiben die Wissenschaftler:innen in ihrem Fazit, gehe es ihnen: „Wir hoffen, unser Paper motiviert dazu, Angriffsmöglichkeiten auf Machine-Learning-Modelle weiter zu erforschen, damit schlussendlich sicherere und zuverlässigere Systeme entwickelt werden können.“