Anzeige
Anzeige
Anzeige
Anzeige
MIT Technology Review News
Verpasse keine News mehr!

Forscher finden sensible Daten in einem der größten öffentlichen KI-Trainingsets – warum das ein großes Problem ist

Im DataComp CommonPool, einem der größten Open-Source-Datensätze für das Training von Bildgeneratoren, wurden sensible personenbezogene Informationen gefunden. Doch wie bekommt man sie da wieder heraus?

Von MIT Technology Review Online
7 Min.
Artikel merken
Anzeige
Anzeige

Auf welchem Datenberg steht er? (Bild: Midjourney / t3n)

Millionen von Bildern von Reisepässen und Ausweisen, Kreditkarten, Geburtsurkunden und anderen Dokumenten, die personenbezogene Daten enthalten, stecken Forschenden zufolge in einem der größten Open-Source-Trainingsdatensätze für KI-Bildgeneratoren. Bereits jetzt wurden tausende solcher Bilder,  – darunter auch identifizierbare Gesichter – in einem kleinen Teilbereich des sogenannten DataComp CommonPool gefunden. Die Daten stammen aus dem Internet. Da die Forschenden bislang nur 0,1 Prozent der Daten überprüfen konnten, schätzen sie, dass die tatsächliche Anzahl der Bilder, die personenbezogene Daten enthalten, „in die Hunderte Millionen“ geht. Die Studie, in der das Problem detailliert beschrieben wird, wurde in diesem Sommer auf der Preprint-Plattform arXiv.org veröffentlicht.

Anzeige
Anzeige

Laut William Agnew, Postdoktorand im Bereich KI-Ethik an der Carnegie Mellon University und Mitautor der Studie, lässt sich daraus der Schluss ziehen, dass „alles, was man online stellt, gesammelt werden kann und wahrscheinlich auch schon gesammelt wurde“. Die Forschenden fanden Tausende Fälle nachweisbar korrekter Privatdokumente – darunter Bilder von Kreditkarten, Führerscheinen, Reisepässen und Geburtsurkunden. Außerdem fanden sich in dem untersuchten Auszug der Datenbank allein 800 Bewerbungsunterlagen (einschließlich Lebenslauf und Anschreiben), die über LinkedIn und andere Plattformen als mit realen Personen verbunden bestätigt werden konnten. In vielen weiteren Fällen dürften die Daten ebenfalls echt sein, doch die Forschenden konnten sie in der für die Studie zur Verfügung stehenden Zeit nicht validieren oder schafften dies aufgrund der durchwachsenen Bildqualität nicht.

Höchst private Daten gefunden

Eine Reihe von Lebensläufen enthielt sensible Informationen zu Behinderungen, Hintergrundüberprüfungen, Geburtsdaten und -orte von Angehörigen sowie ethnische Zugehörigkeiten. Wenn einer der Lebensläufe mit einer Online-Präsenz verknüpft war, fanden die Forscher auch Kontaktinformationen, staatliche Identifikationsnummern, soziodemografische Informationen, Gesichtsbilder, Privatadressen und die Kontaktinformationen anderer Personen, unter anderem Referenzen.

Anzeige
Anzeige

Als DataComp CommonPool 2023 veröffentlicht wurde, war es mit 12,8 Milliarden Datensätzen der größte öffentlich zugängliche Datensatz mit Bild-Text-Paaren, die zum Trainieren generativer Text-zu-Bild-Modelle verwendet werden können. Obwohl die Kuratoren der Datenbank angaben, dass diese nur für die akademische Forschung bestimmt sei, verbietet die Lizenz keine kommerzielle Nutzung. CommonPool wurde als Nachfolger des LAION-5B-Datensatzes erstellt, der bereits zum Trainieren von Modellen wie Stable Diffusion und Midjourney verwendet wurde. Er basiert auf derselben grundsätzlichen Datenquelle: Web-Scraping, das von der gemeinnützigen Organisation Common Crawl zwischen 2014 und 2022 durchgeführt wurde.

Gute Absichten reichen nicht

Während kommerzielle Modelle oft nicht offenlegen, mit welchen Datensätzen sie trainiert wurden, bedeuten die gemeinsamen Datenquellen von DataComp CommonPool und LAION-5B, dass die Datensätze ähnlich sind. Es ist wahrscheinlich, dass dieselben personenbezogenen Daten wahrscheinlich sowohl in LAION-5B als auch in anderen nachgelagerten Modellen, die mit CommonPool-Daten trainiert wurden, vorkommen. Die Ersteller von CommonPool reagierten nicht auf eine E-Mail-Nachfrage zu solchen Details. Da DataComp CommonPool in den letzten zwei Jahren mehr als 2 Millionen Mal heruntergeladen wurde, kann man davon ausgehen, dass „es viele nachgelagerte Modelle gibt, die alle auf genau diesem Datensatz trainiert wurden“, erklärt Rachel Hong, Doktorandin der Informatik an der University of Washington und Hauptautorin der Studie zu CommonPool.

Diese große Verbreitung bringt weitere Datenschutzrisiken mit sich. „Es ist einfach so, dass alle großangelegten Web-Scraping-Datensätze immer Inhalte enthalten, die da nicht drin sein sollten“, sagt Abeba Birhane, Kognitionswissenschaftlerin und Technologieethikerin, die das AI Accountability Lab am Trinity College Dublin leitet. Das seien neben personenbezogenen Daten (Personally Identifiable Information, kurz PII) sogar Bilder von sexuellem Kindesmissbrauch oder Hassrede-Content.

Die Daten lassen sich kaum filtern

Tatsächlich waren sich die Kuratoren von DataComp CommonPool selbst bewusst, dass personenbezogene Daten in dem Datensatz wahrscheinlich sind  und ergriffen einige Maßnahmen zu deren Schutz, darunter die automatische Erkennung und Unkenntlichmachung von Gesichtern. In dem kleinen Auszug fanden und validierten die Forschenden um Hong jedoch über 800 Gesichter, die der Algorithmus übersehen hatte.

Anzeige
Anzeige
Anonymisierter Beispielauszug aus vorhandenen Daten im DataComp CommonPool (Bild: Hong, Agnew et al.)

Anonymisierter Beispielauszug aus vorhandenen Daten im DataComp CommonPool (Bild: Hong, Agnew et al.)

Hochgerechnet meint das Team, dass es sich um insgesamt 102 Millionen Gesichter handeln könnte, die frei zugänglich sind. Andererseits wurden offenbar keine guten Filter verwendet, die bekannte PII-Zeichenfolgen wie E-Mail-Adressen oder Sozialversicherungsnummern erkennen und löschen. „Filtern ist extrem schwierig“, sagt Agnew. „Um dies effektiv zu tun, hätte es sehr bedeutende Fortschritte bei der Erkennung und Entfernung geben müssen.“ Doch darüber informieren die CommonPool-Ersteller nicht.

Der Schaden ist schon entstanden

Eine weitere Maßnahme zum Schutz der Privatsphäre stammt von Hugging Face, einer Plattform, die selbst Trainingsdatensätze hostet. Auch CommonPool ist darunter. Dort hat man ein Werkzeug entwickelt, mit dem Nutzer zumindest theoretisch nach Informationen zur eigenen Person in den Datensätzen suchen und diese dann löschen können. Das Problem: Nachträglich geht das nicht, es gilt nur für künftige Downloads durch KI-Firmen. Hinzu kommt: Die Betroffenen müssten zunächst überhaupt wissen, dass ihre Daten dort gespeichert sind. Auf Anfrage erklärte Hugging-Face-Mitarbeiter Florent Daudens, dass eine „Maximierung des Datenschutzes“ für die Menschen einen mehrschichtigen Ansatz im gesamten KI-Ökosystem erfordere. Das Hugging-Face-Werkzeug ist hier ein Einstieg, deutet Daudens an, aber das reicht nicht. Man arbeite deshalb mit der gesamten Hugging-Face-Nutzer-Community zusammen, „um die Entwicklung in eine datenschutzorientiertere Richtung zu lenken“.

In jedem Fall reicht es jedenfalls nicht aus, nur eigene Daten aus einem Datensatz entfernen zu lassen. „Selbst wenn jemand herausfindet, dass seine Daten in einem Trainingsdatensatz verwendet wurden, und er sein Recht auf Löschung geltend macht, ist technisch gesehen unklar, was das bedeutet“, meint Tiffany Li, Associate Professor für Rechtswissenschaften an der University of San Francisco School of Law. „Wenn eine Organisation nur die persönlichen Informationen aus dem Trainingsdatensatz löscht, aber das bereits trainierte Modell weiter vorhält und es nicht neu trainiert, ist der Schaden bereits entstanden.“ Das Fazit laut Agnew: „Wenn Organisationen Web-Scraping betreiben, werden sie dabei auch private Daten aufsaugen. Und auch wenn man diese filtert, werden aufgrund des Umfangs immer noch private Daten vorhanden sein.“ Er forderte sein Forschungsgebiet auf, sich wirklich damit auseinanderzusetzen.

Anzeige
Anzeige

Informationen aus der Zeit vor ChatGPT

CommonPool wurde auf der Grundlage von Webdaten aufgebaut, die zwischen 2014 und 2022 gesammelt wurden, was bedeutet, dass viele der Bilder wahrscheinlich aus der Zeit vor 2020 stammen, als ChatGPT veröffentlicht wurde. Selbst wenn es theoretisch möglich wäre, dass einige der in der Datenbank enthaltenen Personen dieser Veröffentlichung zugestimmt haben, konnten sie schlicht nicht zustimmen, dass ihre Daten für das Training großer KI-Modelle verwendet werden. Denn diese waren vielen damals einfach noch gar nicht bekannt, die Technik nicht so weit.

Lebenslaufinformationen (anonymisiert) aus der CommonPool-Datenbank (Bild: Hong, Agnew, et al.)

Lebenslaufinformationen (anonymisiert) aus der CommonPool-Datenbank (Bild: Hong, Agnew, et al.)

Da Web-Scraper häufig Daten voneinander kopieren, gelangt ein Bild, das ursprünglich vom Eigentümer an einen bestimmten Ort hochgeladen wurde, oft in andere Trainingsdatensätze. „Ich lade vielleicht etwas einmal ins Internet hoch und möchte es dann ein Jahr später wieder löschen, aber dann hat diese Löschung keine Wirkung mehr“, sagt Agnew. Die Forschenden fanden auch zahlreiche Beispiele für personenbezogene Daten von Kindern, darunter Abbildungen von Geburtsurkunden, Reisepässen und sogar Gesundheitsinformationen. Der jeweilige Kontext deutet darauf hin, dass diese nur für begrenzte Zwecke und Zeiträume freigegeben wurden. Den Web-Scrapern war das egal.

Datenschutzgesetze nicht für KI angepasst

„Das zeigt wirklich die Ursünde von KI-Systemen, die auf öffentlichen Daten basieren“, sagt Ben Winters, Direktor für KI und Datenschutz bei der Verbraucherschutzorganisation Consumer Federation of America. Menschen hätten das Internet mit einem bestimmten Risikobewusstsein genutzt und seien nie davon ausgegangen, dass ihr Material aufgesaugt und für Bildgeneratoren verwendet wird. Winters sieht hier eine große Gefährdung. Hong und ihr Team zeigen in ihrer Studie, dass die ganze KI-Branche umdenken muss. Wahlloses Web-Scraping verstoße zudem mit ziemlicher Sicherheit gegen geltende Datenschutzregeln. Es zeige auch deren Grenzen auf.

Anzeige
Anzeige

„Wir haben die DSGVO in Europa, wir haben den California Consumer Privacy Act in Kalifornien, aber es gibt immer noch kein landesweites Datenschutzgesetz in Amerika, was auch bedeutet, dass die Menschen dort unter unterschiedliche Rechtsprechungen fallen“, sagt Marietje Schaake, ehemalige Politikerin aus den Niederlanden und Expertin für Technologiepolitik, die derzeit als Fellow am Cyber Policy Center der Stanford University tätig ist. Außerdem gelten diese Datenschutzgesetze nur für Unternehmen, die bestimmte Kriterien hinsichtlich ihrer Größe und anderer Merkmale erfüllen, warnt Schaake. Sie gelten nicht unbedingt für Forschende wie diejenigen, die für die Erstellung und Pflege von DataComp CommonPool verantwortlich waren.

Was sind öffentlich zugängliche Informationen?

Und selbst vorhandene Datenschutzgesetze enthalten jetzt schon Ausnahmen für „öffentlich zugängliche“ Informationen. Forschende im Bereich des Maschinellen Lernens arbeiten seit langem nach dem Grundsatz, dass alles, was im Internet frei verfügbar ist, öffentlich und nicht mehr privat ist. Das landet dann schließlich bei kommerziellen KI-Firmen.

Hong, Agnew und ihre Kollegen hoffen jedoch, dass ihre Studie diese ihrer Ansicht nach falsche Grundannahme infrage stellt. „Wir haben festgestellt, dass ‚öffentlich zugänglich‘ viele Dinge umfasst, die viele Menschen als privat betrachten würden – Lebensläufe, Fotos, Kreditkartennummern, Ausweise, Nachrichten aus der Kindheit, Familienblogs. Das sind wahrscheinlich keine Dinge, die Menschen einfach so von Dritten verwendet haben möchten“, sagt Hong. Schaake hofft, dass die Studie dazu führt, dass hier endlich die Alarmglocken läuten. Und es zu Veränderungen kommt.

Dieser Artikel stammt von Eileen Guo. Sie ist leitende Reporterin für Features und Investigatives bei der US-amerikanischen Ausgabe von MIT Technology Review. Sie schreibt darüber, wie die Technologieindustrie unsere Welt verändert.
Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren