Machine Learning und der Datenschutz

Anonymisierungstechniken

von Behrang Raji - 31.08.2020

Als sowohl wettbewerbs- als auch datenschutzfreundliche Lösung werden neue Anonymisierungstechniken erwartungsvoll gefeiert, die die sich vergrößernde Kluft schließen sollen. Die DSGVO stellt im Erwägungsgrund 26 klar, dass die Verordnung und ihr umfangreicher Pflichtenkatalog keine Anwendung finden, sofern anonyme Daten verwendet werden. Wenn jedoch ohne unverhältnismäßigen Aufwand der Personenbezug wiederhergestellt werden kann, handelt es sich nur um eine Pseudonymisierung.

Juristisch unterscheidet man zwei Anonymisierungsformen: Bei der klassischen Form besteht objektiv eine Unmöglichkeit der De-Identifizierung, bei der anderen würde die De-Identifizierung einen unverhältnismäßigen Aufwand erfordern. Angesichts der enormen Rechenkapazitäten von KI-Systemen stellt sich allerdings die Frage, was noch als unverhältnismäßiger Aufwand betrachtet werden kann. Insofern wird teilweise dafür plädiert, den Begriff des personenbezogenen Datums in Zeiten von Big Data und KI neu zu denken. Gemeint ist damit, den Begriff auf de-anonymisierbare Daten auszuweiten.

Bei der klassischen Anonymisierung werden alle Identifizierungsmerkmale entfernt. Der Nachteil: Verlust der Werthaltigkeit der Daten. Daneben können etwa auch Zusammenfassungen von Daten zu statistischen Daten - abhängig vom Aggregationsniveau - anonyme Daten darstellen.

Synthetische Daten

Synthetische Daten: Das Beratungshaus Gartner stuft synthetische Daten als eine „Emerging Technology“ ein.

(Quelle: Gartner)

Auf den Vormarsch sind synthetische Daten. Bei dieser Anonymisierungstechnik kommen Generative Adversarial Networks (GAN) zum Einsatz (Beispiele mit weiterführenden Erklärungen finden sich auf https://thispersondoesnotexist.com). Dabei lernen zwei neuronale Netze im Zusammenspiel. Das eine Netz (Diskriminator) kennt die Originaldaten, etwa Gesichter. Das andere (Generator) lernt die Gesichtsbildern innewohnende Gesetzmäßigkeit und produziert eigenständige synthetische Gesichtsbilder. Die Aufgabe des Diskriminators besteht darin, die realen Gesichtsbilder von synthetischen zu unterscheiden. Der Trainingsprozess hat dann ein Optimum erreicht, wenn der Diskriminator die synthetischen nicht mehr von den Originaldaten unterscheiden kann. Bei diesem Synthetisierungsvorgang werden Originaldaten (personenbezogen) in eine synthetische Repräsentation (anonyme Daten) überführt. Eine De-Identifizierung ist nicht mehr möglich.

Game Changer

Datengetriebene KI-Systeme sind vor allem in der lernenden Trainingsphase auf ausreichend Datenbestände in guter Qualität angewiesen. Synthetische Daten, so heißt es im Gutachten der Datenethikkommission 2019, können im Gegensatz zu den Daten mit Personenbezug beliebig produziert und in der Trainingsphase eingesetzt werden, etwa um ungewöhnliche Datenkonstellationen zu testen. Die Weitergabe an Dritte ist möglich, was Kollaborationen mit Geschäftspartnern erlaubt. Letzteres fördert zudem den Mittelstand, da sonst nur die bekannten Global Player in der Lage wären, KI-Systeme zu entwickeln.

Die Werthaltigkeit bleibt bei synthetischen Daten erhalten und das System kann durch gezielte Ausmerzung von Verzerrungen insgesamt besser austariert werden, was einer Diskriminierungsvermeidung dienlich sein kann. Im Gegensatz zu klassischen Anonymisierungsverfahren, bei denen der Wert und damit die Erkenntnisse aus den Daten weitgehend verloren gehen, können solche Techniken Innovationen fördern und gleichzeitig - aus datenschutzrechtlicher Sicht - die Rechte und Freiheiten der Betroffenen schützen. Soll eine gewisse Qualität der Daten erhalten bleiben, ist meist bei klassischer Anonymisierung eine De-Identifizierung mit verhältnismäßigem Aufwand eben doch möglich, sodass es sich um Pseudonymisierung und nicht um Anonymisierung handelt.

Seite

Machine Learning und der Datenschutz

Anonymisierungstechniken

Synthetische Daten

Game Changer

Mehr zum Thema