Anonymisieren statt Löschen: Den eigenen Datenschatz trotz DSGVO-Löschpflicht heben
Viele sehen die DSGVO als Störfaktor oder Hemmschuh, unter anderem auch deshalb, weil ihr Prinzip der Speicherbegrenzung die Auswertung von Daten über einen längeren Zeitraum zu erschweren scheint. Dabei werden doch viele innovative und datengetriebene Geschäftsmodelle gerade durch die Auswertung großer, auch historischer Datenmengen erst möglich. Es ist aber auch die DSGVO, die einen Lösungsansatz bereithält – vielleicht nicht für alle Probleme, die die Speicherbegrenzung und die damit verbundene Löschpflicht verursachen, aber einige: nämlich die Anonymisierung. Denn laut Erwägungsgrund 26 DSGVO betrifft die DSGVO nicht die Verarbeitung anonymisierter Daten (wodurch auch die Löschpflicht nicht für anonymisierte Daten gilt). Der Bundesdatenschutzbeauftragte (BfDI) stellt außerdem fest: „Eine Verpflichtung zur unverzüglichen Löschung ist durch eine Anonymisierung erfüllbar“.
Bevor nun dank Anonymisierung aber auch der Schatz der Daten gehoben werden kann, die eigentlich gelöscht werden müssen, ist noch einiges zu beachten:
Was ist eine effektive Datenanonymisierung?
Die Anonymisierung ist der Prozess, bei dem personenbezogene Daten in anonyme Informationen umgewandelt werden, sodass eine Person nicht (mehr) identifizierbar ist. Es gibt zwei verschiedene Ansätze zur Anonymisierung: Der erste basiert auf der Zufallsauswahl, der zweite auf der Verallgemeinerung.
Bei der Randomisierung wird der Wahrheitsgehalt der Daten verändert, um die enge Verbindung zwischen den Daten und dem Individuum aufzuheben. Wenn die Daten hinreichend unsicher sind, können sie nicht mehr auf eine bestimmte Person bezogen werden. Die Randomisierung kann vor Inferenzangriffen/Risiken schützen und kann mit Generalisierungstechniken kombiniert werden, um stärkere Datenschutzgarantien zu bieten.
Die Verallgemeinerung besteht darin, die Attribute der Datensubjekte zu verallgemeinern oder zu verwässern, indem der jeweilige Maßstab oder die Größenordnung geändert wird (also eine Region statt einer Stadt, ein Monat statt einer Woche). Kurz: Eine Anonymisierung liegt vor, wenn der Personenbezug von Daten derart aufgehoben ist, dass er nicht oder nur unter unverhältnismäßigem Aufwand an Zeit, Kosten und Arbeitskräften wiederhergestellt werden kann.
Datenanonymisierung im Kontext der DSGVO
Obwohl die DSGVO nicht für anonymisierte Daten gilt, gilt sie dennoch für den Prozess der Anonymisierung selbst, da sie eine „Verarbeitung“ im Sinne von Art. 4 (2) DSGVO darstellt. Dementsprechend ist eine Rechtsgrundlage erforderlich. Daten, die zum Beispiel regulär zum Ende einer gesetzlichen Aufbewahrungsfrist gelöscht werden müssen, können so laut BfDI auch gemäß Art. 6 Abs. 1 lit. c) DSGVO anonymisiert werden.
Datenschutzfolgenabschätzung
Aufgrund der hohen Komplexität des Anonymisierungsvorgangs und daraus resultierenden möglichen Fehlerquellen geht der BfDI zudem davon aus, dass in der Regel für eine Anonymisierung eine Datenschutz-Folgenabschätzung durchzuführen ist. Dabei sollten auch die Folgen einer De-Anonymisierung berücksichtigt werden:
Das Risiko der De-Anonymisierung
Wenn vermeintlich anonymisierte Daten (oder ein Datensätze) immer noch einen Personenbezug aufweisen (zum Beispiel aufgrund identifizierbarer Elemente wie Namen), bleibt die DSGVO anwendbar. Die Anonymisierung ist dann also unwirksam, wenn es sehr wahrscheinlich ist, dass eine Person anhand von Daten, die als anonyme Informationen behandelt wurden, wieder identifiziert werden kann.
Das könnte zur Folge haben, dass ein Verantwortlicher die Daten ohne Rechtsgrundlage verarbeitet, was sich wiederum nicht nur negativ auf die Betroffenen auswirken könnte, sondern auch auf den Verantwortlichen. So wurde etwa der dänische Taxidienst Taxa 4×35 2019 mit einer Geldstrafe in Höhe von 1,2 Millionen Kronen (etwa 160.000 Euro) belegt, weil er Nutzeraten nicht gelöscht oder anonymisiert hatte.
Wie kann also eine wirksame Anonymisierung erreicht werden?
Ein wirksamer Anonymisierungsprozess versucht, die Wahrscheinlichkeit, dass jemand identifiziert (etwa durch Namen) oder identifizierbar ist (zum Beispiel durch Standortdaten, genetische, physische oder andere Faktoren), auf ein ausreichend geringes Maß zu reduzieren, also eine erneute Identifizierung unwiderruflich zu verhindern. In der Praxis bedeutet das, dass alle Beteiligten daran gehindert werden, eine Person in einem Datensatz herauszufiltern oder mehrere Datensätze miteinander zu verknüpfen und so auf Informationen zu schließen. In diesem Zusammenhang sind „alle Mittel zu berücksichtigen, die nach vernünftigem Ermessen eingesetzt werden können“, wie etwa die Kosten und der Zeitaufwand für die Identifizierung sowie die zum Zeitpunkt der Verarbeitung verfügbare Technologie und die technologischen Entwicklungen, um eine Person zu reidentifizieren (Erwägungsgrund 26 DSGVO).
Es ist nicht erforderlich, einen Ansatz zu wählen, der jede absolute oder rein hypothetische oder theoretische Möglichkeit der Identifizierbarkeit berücksichtigt. Entscheidend ist, ob die Identifizierbarkeit im Verhältnis zu den Umständen „vernünftigerweise wahrscheinlich“ ist, und nicht, was in absoluten Zahlen „denkbar wahrscheinlich“ sein mag. Es ist nicht immer möglich, das Risiko der Identifizierbarkeit auf null zu reduzieren, und die DSGVO verlangt nicht, dass die Anonymisierung völlig risikofrei ist, sondern nur, dass das Risiko (die Wahrscheinlichkeit) einer erneuten Identifizierung auf ein ausreichend geringes Maß reduziert wird.
Vor diesem Hintergrund und um eine wirksame Anonymisierung zu erreichen, müssen Anonymisierungstechniken (also Verallgemeinerungen oder Randomisierungen) danach streben, die Wahrscheinlichkeit eines Identifizierungsrisikos zu verringern, indem sie das Auftreten von drei Schlüsselindikatoren abschwächen, die bestimmen, ob es sich bei Informationen um personenbezogene Daten handelt oder nicht:
- Singling Out bedeutet, dass jemand dank der Existenz direkter oder indirekter Identifikatoren in der Lage ist, eine Person von einer anderen in einem Datensatz zu unterscheiden. Ein Verantwortlicher kann den Indikator des Singling Out verringern, indem er sowohl direkte als auch indirekte Identifizierungsfaktoren in seinem Datensatz entfernt.
- Linkability bedeutet, dass mehrere Datensätze über dieselbe Person oder Personengruppe miteinander kombiniert werden. Diese Datensätze können sich in einer Datenbank oder in zwei oder mehr verschiedenen Datenbanken befinden. Anonymisierte Daten können zum Beispiel mit öffentlich zugänglichen Daten oder mit einem anderen Datensatz so kombiniert werden, dass eine oder mehrere Personen identifiziert werden können. Ein Verantwortlicher mildert den Indikator für die Verknüpfbarkeit ab, indem er die Daten in seinen Datensätzen anonymisiert, strenge Zugangskontrollmaßnahmen ergreift und die anonymisierten Daten nicht allgemein öffentlich zugänglich macht.
- Inferences bedeutet die Möglichkeit, aus verschiedenen Informationsquellen auf Details über eine Person zu schließen, zu raten oder vorherzusagen. Um die Wahrscheinlichkeit der Identifizierbarkeit durch Rückschlüsse zu bestimmen, ist unter anderem die Möglichkeit zu berücksichtigen, die Identität von Personen aus unvollständigen Datensätzen (wenn also nur einige der identifizierenden Informationen entfernt oder verallgemeinert wurden) oder aus anderen Informationen abzuleiten, die ein Unternehmen entweder besitzt oder von denen vernünftigerweise erwartet werden kann, dass es sie erhält. In diesem Zusammenhang ist die Anwendung des „Motivated Intruder“ erforderlich. Ein motivierter Intruder ist eine Person, die ohne Vorwissen beginnt, aber eine Person identifizieren möchte, von deren persönlichen Daten die anonymen Informationen abgeleitet sind. Es handelt sich um eine Person, die über Folgendes verfügt: a) Motive für den Versuch der Identifizierung; b) Mittel, um erfolgreich zu sein (das heißt, Zugang zu geeigneten Ressourcen, Untersuchungstechniken); c) die Absicht, die Daten in einer Weise zu verwenden, die Risiken für den Verantwortlichen und die Rechte und Freiheiten der Personen, deren Daten verarbeitet werden, mit sich bringen kann.
Fazit
Alles in allem geht es bei einer wirksamen Anonymisierung darum, das richtige Gleichgewicht zwischen der Bewältigung dieses Risikos und dem Erhalt des Nutzens der Daten ohne Personenbezug zu finden. Wenn man sich zuvor noch um eine wirksame Rechtsgrundlage und eine Datenschutzfolgenabschätzung kümmert, kann die Anonymisierung ein probates Mittel sein, um den eigenen Datenschatz und den Datenschutz zu erhalten.
Schade, beide Verfahren zeigen in der Praxis große Schwächen. Als ich im RSS Feed den Titel laß, hatte ich auf einen Artikel über Synthetische Daten gehofft, aber solch modernen Ansätze brauchen in Deutschland üblich immer länger als im Rest der Welt und das obwohl Deutschland größter Treiber hinter GDPR war die dann zur DSVGO führte.