
„Ich erinnere mich daran, wie ich nach der Schule Twin Peaks geschaut habe“: Ein solcher anonym im Netz geteilter Satz verrät auf den ersten Blick nicht viel über eine:n Verfasser:in. Da die Kultserie aber zwischen 1990 und 1991 im Fernsehen lief und es unwahrscheinlich ist, dass allzu junge Schüler:innen Interesse am Werk von David Lynch haben, ist es recht wahrscheinlich, dass der:die Verfasser:in des Beitrags zwischen 45 und 50 Jahren alt ist.
Zusammen mit anderen Beiträgen derselben Person ließen sich auf die Art auch weitere persönliche Daten wie Herkunft, Geschlecht oder Einkommen ermitteln. Anhand dieser Informationen wäre es dann zumindest in einigen Fällen auch möglich, den:die Autor:in genau zu identifizieren. Schon 2002 zeigte eine Studie, dass etwa die Hälfte der US-Bevölkerung anhand weniger Informationen wie Ort, Geschlecht und Alter identifiziert werden kann.
Allerdings ist der Aufwand, um so an persönliche Daten von Onlinenutzer:innen zu gelangen, ziemlich hoch. Zumindest bislang, denn eine Studie von Wissenschaftlern der ETH Zürich zeigt, dass sich große Sprachmodelle wie GPT‑4 erschreckend gut für diese Arbeit eignen.
In ihrem als Preprint veröffentlichten Paper zeigen die Wissenschaftler, dass große Sprachmodelle die drei wichtigsten Attribute zur Identifikation einer Person mit einer Genauigkeit von mehr als 95 Prozent bestimmen können. Und zwar zu einem Hundertstel der Kosten und 240-mal schneller, als wenn Menschen diese Arbeit erledigen.
Auf die Art gesammelte persönliche Daten ließen sich auf unterschiedliche Arten missbrauchen. So könnten Werbetreibende beispielsweise detaillierte Profile von Nutzer:innen schaffen. Aber auch Betrüger oder staatliche Organe könnten die Technik nutzen, um anonym agierende Nutzer:innen zu identifizieren.
Theoretisch könnte die Technik auch sehr gezielt eingesetzt werden. In ihrem Paper beschreiben die Autoren, wie Chatbots gezielt darauf trainiert werden könnten, Nutzer:innen vermeintlich harmlose Informationen zu entlocken, aus denen wiederum persönliche Daten extrahiert werden könnten.
Wirklich effektive Gegenmaßnahmen gibt es derzeit nicht. Die Autoren der Studie hoffen daher, dass ihre Arbeit zu einer breiteren Diskussion über die Auswirkungen großer Sprachmodelle auf den Datenschutz führen wird.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team
Ich verstehe es, wenn ein Autor zeigen möchte, dass er oder sie alle Leser ansprechen will. Aber würde es dann nicht reichen, das einmal zu tun? Dieser Text wirkt durch das permanente Verwenden von Sonderzeichen so oberlehrerhaft, fast zwanghaft – und das ist schade, weil es von dem interessanten Inhalt ablenkt.
Suche im Netz mal nach „Binnen-I be gone“ als Erweiterung für Chrome oder Firefox. Damit ist man diesen Unsinn auf zu mehr als 90 % aller Webseiten los.