Google hackt Google: Forscher knacken Black-Box-KI

News

Google hackt Google: Forscher knacken Black-Box-KI

Google-Forscher:innen haben mithilfe von Angriffen „nicht-triviale Informationen“ über KI-Sprachmodelle erlangt – neben OpenAIs GPT-4 haben sie auch hauseigene Modelle wie Gemini und Palm-2 ins Visier genommen. Was dahintersteckt.

Von Claudia Wieschollek

12.03.2024, 12:50 Uhr • 2 Min.

Google hackt Google: Forscher knacken Black-Box-KI — Deepmind-Forscher:innen ist es gelungen, Informationen aus einer KI-Black-Box zu extrahieren. (Bild: Poetra.RH/Shutterstock)

Forscher:innen um Nicholas Carlini ist es gelungen, „präzise, nicht-triviale Informationen“ aus KI-Sprachmodellen zu extrahieren, die eigentlich als Black Boxes gelten, also keine Einblicke in ihre Entscheidungen und Wirkweisen zulassen. Zu den betroffenen Sprach-KI zählen Schwergewicht wie OpenAIs ChatGPT und Googles Palm-2.

Bemerkenswert daran ist nicht zuletzt, dass Carlini und einige seiner Kolleg:innen selbst für Google arbeiten: Sie forschen für Deepmind an künstlicher Intelligenz.

Forscher:innen verschaffen sich Einblicke in Black Boxes

Es sei nur wenig öffentlich darüber bekannt, wie weitverbreitete Large-Language-Modelle wie GPT-4, Claude 2 oder Gemini genau funktionierten, schreiben die Autor:innen in ihrer am 11. März veröffentlichten Studie. Tatsächlich betreiben Unternehmen wie OpenAI und auch Google diese Modelle ganz bewusst als Black Boxes – so hat der Suchmaschinenkonzern etwa Anfang 2023 beschlossen, keine Forschungsergebnisse zu KI mehr zu veröffentlichen. Dahinter steckt wohl auch die Angst, der Konkurrenz in die Hände zu spielen.

Empfehlungen der Redaktion

News

KI-Sicherheit: Wie Ascii-Art GPT-4 und Gemini austricksen kann

News

Als Reaktion auf OpenAI: Google will KI-Forschung nicht mehr veröffentlichen

News

Auch wegen KI-Tools: BSI schätzt Cybersicherheitslage als kritisch ein

Auch Sicherheitsbedenken könnten ein Grund sein, so die Forscher:innen weiter. Je weniger potenzielle Angreifer:innen über ein KI-Modell wissen, desto weniger Ansatzpunkte für ihre Attacken hätten sie. Über API, also Schnittstellen zu Drittanbietern, verfügen jedoch so gut wie alle Modelle.

Wie diese Schnittstellen genutzt werden könnten, um an Informationen über ein Sprachmodell zu gelangen, wollten die Wissenschaftler:innen herausfinden. Dafür haben sie sich des Model-Stealings – auch Model-Extraction-Attack genannt – bedient. Durch gezielte Anfragen an die API sollen Rückschlüsse zur Größe und weiteren Parametern der KI gezogen werden können.

Layers von GPT-4 und Palm-2 extrahiert

So ist es den Forscher:innen tatsächlich gelungen, die letzte Zwischenschicht sowohl von GPT-4 als auch Palm-2 zu extrahieren. Zwar soll es sich dabei nur um vergleichsweise unwichtige Layers handeln – doch sie geben aufschlussreiche Einblicke in die Modelle:

Zunächst konnten die Forscher:innen die sogenannte Width der Modelle auslesen – sie wird oft in einen Zusammenhang mit der Gesamtzahl der Parameter gebracht.
Zusätzlich werden die Sprach-KI so etwas weniger zu Black Boxes – auch wenn freilich nur ein kleiner Teil ihres Inneren ausgeforscht worden ist.
Zu guter Letzt haben Carlini und sein Team den Beweis geliefert, dass es möglich ist, Black-Box-Modelle zu „hacken“ und Zugriff auf Parameter zu erlangen.

Die Forscher:innen beschreiben ihre Angriffstaktik als „effektiv und effizient“ – und sie soll bei allen KI-Modellen funktionieren, deren API alle Log-Wahrscheinlichkeiten oder einen Logit-Bias enthalten.

Google und OpenAI haben ihre API inzwischen übrigens angepasst, sodass künftige Angreifer:innen nicht mehr so einfach auf Layers zugreifen können. Darum, so schreiben die Wissenschaftler:innen in ihrem Fazit, gehe es ihnen: „Wir hoffen, unser Paper motiviert dazu, Angriffsmöglichkeiten auf Machine-Learning-Modelle weiter zu erforschen, damit schlussendlich sicherere und zuverlässigere Systeme entwickelt werden können.“

Mehr zu diesem Thema

MIT Technology Review Google Künstliche Intelligenz

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren