Anzeige
Anzeige
News

Google hackt Google: Forscher knacken Black-Box-KI

Google-Forscher:innen haben mithilfe von Angriffen „nicht-triviale Informationen“ über KI-Sprachmodelle erlangt – neben OpenAIs GPT-4 haben sie auch hauseigene Modelle wie Gemini und Palm-2 ins Visier genommen. Was dahintersteckt.

2 Min.
Artikel merken
Anzeige
Anzeige
Deepmind-Forscher:innen ist es gelungen, Informationen aus einer KI-Black-Box zu extrahieren. (Bild: Poetra.RH/Shutterstock)

Forscher:innen um Nicholas Carlini ist es gelungen, „präzise, nicht-triviale Informationen“ aus KI-Sprachmodellen zu extrahieren, die eigentlich als Black Boxes gelten, also keine Einblicke in ihre Entscheidungen und Wirkweisen zulassen. Zu den betroffenen Sprach-KI zählen Schwergewicht wie OpenAIs ChatGPT und Googles Palm-2.

Anzeige
Anzeige

Bemerkenswert daran ist nicht zuletzt, dass Carlini und einige seiner Kolleg:innen selbst für Google arbeiten: Sie forschen für Deepmind an künstlicher Intelligenz.

Forscher:innen verschaffen sich Einblicke in Black Boxes

Es sei nur wenig öffentlich darüber bekannt, wie weitverbreitete Large-Language-Modelle wie GPT-4, Claude 2 oder Gemini genau funktionierten, schreiben die Autor:innen in ihrer am 11. März veröffentlichten Studie. Tatsächlich betreiben Unternehmen wie OpenAI und auch Google diese Modelle ganz bewusst als Black Boxes – so hat der Suchmaschinenkonzern etwa Anfang 2023 beschlossen, keine Forschungsergebnisse zu KI mehr zu veröffentlichen. Dahinter steckt wohl auch die Angst, der Konkurrenz in die Hände zu spielen.

Anzeige
Anzeige

Auch Sicherheitsbedenken könnten ein Grund sein, so die Forscher:innen weiter. Je weniger potenzielle Angreifer:innen über ein KI-Modell wissen, desto weniger Ansatzpunkte für ihre Attacken hätten sie. Über API, also Schnittstellen zu Drittanbietern, verfügen jedoch so gut wie alle Modelle.

Wie diese Schnittstellen genutzt werden könnten, um an Informationen über ein Sprachmodell zu gelangen, wollten die Wissenschaftler:innen herausfinden. Dafür haben sie sich des Model-Stealings – auch Model-Extraction-Attack genannt – bedient. Durch gezielte Anfragen an die API sollen Rückschlüsse zur Größe und weiteren Parametern der KI gezogen werden können.

Anzeige
Anzeige

Layers von GPT-4 und Palm-2 extrahiert

So ist es den Forscher:innen tatsächlich gelungen, die letzte Zwischenschicht sowohl von GPT-4 als auch Palm-2 zu extrahieren. Zwar soll es sich dabei nur um vergleichsweise unwichtige Layers handeln – doch sie geben aufschlussreiche Einblicke in die Modelle:

  • Zunächst konnten die Forscher:innen die sogenannte Width der Modelle auslesen – sie wird oft in einen Zusammenhang mit der Gesamtzahl der Parameter gebracht.
  • Zusätzlich werden die Sprach-KI so etwas weniger zu Black Boxes – auch wenn freilich nur ein kleiner Teil ihres Inneren ausgeforscht worden ist.
  • Zu guter Letzt haben Carlini und sein Team den Beweis geliefert, dass es möglich ist, Black-Box-Modelle zu „hacken“ und Zugriff auf Parameter zu erlangen.

Die Forscher:innen beschreiben ihre Angriffstaktik als „effektiv und effizient“ – und sie soll bei allen KI-Modellen funktionieren, deren API alle Log-Wahrscheinlichkeiten oder einen Logit-Bias enthalten.

Anzeige
Anzeige

Google und OpenAI haben ihre API inzwischen übrigens angepasst, sodass künftige Angreifer:innen nicht mehr so einfach auf Layers zugreifen können. Darum, so schreiben die Wissenschaftler:innen in ihrem Fazit, gehe es ihnen: „Wir hoffen, unser Paper motiviert dazu, Angriffsmöglichkeiten auf Machine-Learning-Modelle weiter zu erforschen, damit schlussendlich sicherere und zuverlässigere Systeme entwickelt werden können.“

Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige