„Ich erinnere mich daran, wie ich nach der Schule Twin Peaks geschaut habe“: Ein solcher anonym im Netz geteilter Satz verrät auf den ersten Blick nicht viel über eine:n Verfasser:in. Da die Kultserie aber zwischen 1990 und 1991 im Fernsehen lief und es unwahrscheinlich ist, dass allzu junge Schüler:innen Interesse am Werk von David Lynch haben, ist es recht wahrscheinlich, dass der:die Verfasser:in des Beitrags zwischen 45 und 50 Jahren alt ist.
Zusammen mit anderen Beiträgen derselben Person ließen sich auf die Art auch weitere persönliche Daten wie Herkunft, Geschlecht oder Einkommen ermitteln. Anhand dieser Informationen wäre es dann zumindest in einigen Fällen auch möglich, den:die Autor:in genau zu identifizieren. Schon 2002 zeigte eine Studie, dass etwa die Hälfte der US-Bevölkerung anhand weniger Informationen wie Ort, Geschlecht und Alter identifiziert werden kann.
Allerdings ist der Aufwand, um so an persönliche Daten von Onlinenutzer:innen zu gelangen, ziemlich hoch. Zumindest bislang, denn eine Studie von Wissenschaftlern der ETH Zürich zeigt, dass sich große Sprachmodelle wie GPT‑4 erschreckend gut für diese Arbeit eignen.
In ihrem als Preprint veröffentlichten Paper zeigen die Wissenschaftler, dass große Sprachmodelle die drei wichtigsten Attribute zur Identifikation einer Person mit einer Genauigkeit von mehr als 95 Prozent bestimmen können. Und zwar zu einem Hundertstel der Kosten und 240-mal schneller, als wenn Menschen diese Arbeit erledigen.
Wenn große Sprachmodelle wissen, wer du bist
Auf die Art gesammelte persönliche Daten ließen sich auf unterschiedliche Arten missbrauchen. So könnten Werbetreibende beispielsweise detaillierte Profile von Nutzer:innen schaffen. Aber auch Betrüger oder staatliche Organe könnten die Technik nutzen, um anonym agierende Nutzer:innen zu identifizieren.
Theoretisch könnte die Technik auch sehr gezielt eingesetzt werden. In ihrem Paper beschreiben die Autoren, wie Chatbots gezielt darauf trainiert werden könnten, Nutzer:innen vermeintlich harmlose Informationen zu entlocken, aus denen wiederum persönliche Daten extrahiert werden könnten.
Wirklich effektive Gegenmaßnahmen gibt es derzeit nicht. Die Autoren der Studie hoffen daher, dass ihre Arbeit zu einer breiteren Diskussion über die Auswirkungen großer Sprachmodelle auf den Datenschutz führen wird.
Ich verstehe es, wenn ein Autor zeigen möchte, dass er oder sie alle Leser ansprechen will. Aber würde es dann nicht reichen, das einmal zu tun? Dieser Text wirkt durch das permanente Verwenden von Sonderzeichen so oberlehrerhaft, fast zwanghaft – und das ist schade, weil es von dem interessanten Inhalt ablenkt.
Suche im Netz mal nach „Binnen-I be gone“ als Erweiterung für Chrome oder Firefox. Damit ist man diesen Unsinn auf zu mehr als 90 % aller Webseiten los.