Was sind eigentlich synthetische Daten und welchen Nutzen haben sie?

Synthetische Daten können das Risiko für Datenschutzverstöße signifikant senken. (Foto: dpa)
Den Schutz von Daten zu gewährleisten, ist notwendig und abdingbar. Denken wir zurück an die Zeit vor Inkrafttreten der Datenschutz-Grundverordnung (DSGVO) am 25. Mai 2018 glich die Verwendung von persönlichen Daten oft einem Wild-Western-Film. Seitdem hat sich einiges getan, gleichzeitig sind viele Entwicklungen und Reglementierungen noch immer in der Schwebe, so schnell wird keine Ruhe einkehren. Zuletzt gab auch die britische Regierung bekannt, dass sie an einer eigenen Version arbeiten wolle.
Das lässt viel Raum für Unsicherheiten im Umgang mit persönlichen Daten, DSGVO-Bußgelder können schließlich schnell exorbitant hoch sein: Im März 2022 wurden zum Beispiel 1.030 Bußgelder mit mehr als 1,6 Milliarden Euro verhängt.
Mehr Gleichheit durch Reglementierung
Dabei sorgen die neuen Reglementierungen endlich auch für mehr Kontrolle über die eigenen persönlichen Daten. Wo gerade für führende Digitalunternehmen vor der DSGVO das Sammeln und Nutzen von Daten fast schon in “Freiwildmanier” geschah, müssen auch sie nun Strafen befürchten. Und die sind nicht gerade knapp bemessen, denn die verhängten Bußgelder richten sich auch nach dem Umsatz des Unternehmens.
Besonders komplex wird es für Unternehmen, die in mehreren Ländern ansässig sind und daher verschiedenen Rechtsordnungen unterliegen: Wer auf globaler Ebene mit Daten arbeitet, sieht sich hier schnell mit einer großen Herausforderung konfrontiert. Und da sowohl internationale Gremien in der EU als auch nationale Gremien auch in Zukunft weiterhin datengetriebene Geschäftsmodelle regulieren werden, etwa durch Digitalstrategien und die geplante E-Privacy-Verordnung, ist es auch nötig, sich immer auf dem Laufenden zu halten, was jüngste Entwicklungen angeht.
Doch nicht nur die DSGVO macht es Datenprojekten mitunter schwer: Aufgrund von Talentdefiziten, ungewissem ROI, Datenverfügbarkeit, Inkonsistenz oder voreingenommenen Datensätzen sind diese oft schon zum Scheitern verurteilt, bevor sie überhaupt beginnen können.
Synthetische Daten als mögliche Lösung
Die benötigten Daten müssen dabei zwar belastbar sein und sinnvoll für die Auswertung – aber eigentlich keineswegs echt. Stattdessen können sogenannte synthetische Daten eine Lösung sein, die sowohl die eben genannten Defizite ausgleichen und zeitgleich das Risiko für Datenschutzverstöße signifikant senken. Sie sind das Ergebnis künstlicher Datenerzeugung, wobei der neue Datensatz dabei der Qualität seiner Originaldaten ähnelt und deren statistische Verteilung beibehält, aber eben ohne Personenbezug. Das heißt, synthetische Daten sehen aus wie echte personenbezogene Daten und verhalten sich auch so.
Synthetische Daten können auf zwei Arten erstellt werden:
- Auf Grundlage des bisherigen Wissens – wenn die Gesetze bekannt sind, die dem Modell zugrunde liegen, können diese genutzt werden, um neue Daten zu erzeugen und zu simulieren. Wenn bekannt ist, dass in dem Datensatz beispielsweise weibliche Kunden über 20 mit bestimmten Merkmalen enthalten sind, kann dieses Wissen genutzt werden, um Datenpunkte künstlich zu simulieren.
- Oder direkt aus den realen Daten, was in der Regel durch Algorithmen des maschinellen Lernens oder der künstlichen Intelligenz erreicht wird, die die Verteilungen und Beziehungen innerhalb des ursprünglichen Datensatzes lernen. Sobald die Beziehungen gelernt sind, können die neuen Datensätze erstellt werden.
Trotz ihrer künstlichen Erzeugung müssen die Daten natürlich realistisch sein: Künstliche Daten, die nicht den Originaldaten entsprechen, sind für die Analyse nicht geeignet.
Besonders im Finanz-, Versicherungs-, Gesundheits- und Telekommunikationssektor gibt es diverse Anwendungsfälle solcher Daten. Sie zeigen eine steigende Akzeptanz synthetischer Daten während der letzten Jahre.
Ohne Daten geht es nicht mehr
Eines dürfte klar sein: Unternehmen sind auf enorm große Datenmengen angewiesen. Und diese können, selbst wenn sie zuvor korrekt und gewissenhaft erhoben wurden, in den Händen der falschen Leute Schaden anrichten. Cyberangriffe und Datenpannen (intern wie extern) können ein fatales Ausmaß annehmen, gerade wenn riesige Mengen an personenbezogenen Daten gespeichert sind. Dieses Ausmaß kann mit synthetischen Daten deutlich kleiner gehalten werden.
Synthetische Daten treffen auch bei Analystinnen und Analysten auf Zuspruch: In den nächsten zwei Jahren werden etwa 60 Prozent der Daten, die für die Entwicklung von KI- und Analyseprojekten verwendet werden, synthetisch generiert sein – so prognostiziert es Gartner. Gleichzeitig kürte das renommierte Innovationsmagazin MIT Technology Review die Technologie jüngst zu einer der 10 Breakthrough-Technologies 2022.