Daten trotz DSGVO ohne Einschränkung nutzen

Datenmaskierung reicht nicht

von - 18.09.2019
Amnesia-Beispiel
Tools wie Amnesia nutzen k-Anonymisierung: Alter und PLZ sind in diesem Beispiel Quasi-Indikatoren – diese Daten werden verallgemeinert.
(Quelle: Johner-Institut)
Was bedeutet das nun für gängige Datenschutzpraktiken wie die Maskierung von Daten? Unternehmen, die Datenbanken intensiv nutzen, setzen zum Datenschutz oft eine sogenannte statische oder dynamische Datenmaskierung ein. Dabei werden kritische Werte, die das Identifizieren von Personen ermöglichen, verändert beziehungsweise unkenntlich gemacht. Persönliche Angaben wie Kreditkartennummer, Name oder Ausweisnummer werden durch Verschlüsselung oder das Ersetzen von Wörtern verschleiert.
Beispiele für solche Data-Masking-Module sind Informa­tica Data Masking, Oracle Data Masking, SQL Server, IBM InfoSphere Optim Data Masking und MariaDB MaxScale.
Data Masking hat seinen Nutzen und seine Berechtigung dann, wenn bestimmte Daten aus Datenschutzgründen vor nicht berechtigten Benutzern verborgen werden sollen. Die maskierten Daten können beispielsweise für Software-Tests oder Benutzerschulungen verwendet werden. Für die unumschränkte Nutzung von Datensätzen etwa zur Datenanalyse ist Data Masking hingegen nicht geeignet.
Data Masking unterscheidet sich von der strengeren Anonymisierung - ebenso wie Pseudonymisierung - dadurch, dass maskierte Daten immer noch Identifikationsmerkmale enthalten. Diese können - zumindest durch „Heranziehung zusätzlicher Informationen“, wie die DSGVO ausführt - eine Zuordnung zu einer Person möglich machen. So konnte eine US-Forscherin durch Kombination eines maskierten medizinischen Datensatzes mit einem öffentlich zugänglichen Wahlregister die persönliche Krankenakte des Senators von Massachusetts identifizieren und ihm zuzuschicken. Bei korrekt anonymisierten Daten wäre dies unmöglich.
Data Masking begrenzt eine unumschränkte Datennutzung aber auch aus anderen Gründen: Zum einen können maskierte beziehungsweise verschlüsselte Daten nicht einfach veröffentlicht oder weitergegeben werden. Zum anderen kann der Schlüssel zur Dekodierung auch Unbefugten in die Hände fallen. Zudem lassen sich maskierte Datensätze nicht ohne Weiteres für die Zwecke analytischer Auswertungen gebrauchen. „Datenmaskierung ist zwar ganz praktisch für Use Cases, die beispielsweise Statistiken auslesen oder Dashboards bauen, sagt Statice-CEO Weyer. „Die meisten Unternehmen wollen aber Daten komplexer nutzen. Weil Daten natürlich gerade für Machine Learning eine unheimlich wertvolle Ressource sind, kann dies durch Query Interfaces nicht gewährleistet werden.“

k-Anonymisierung

Unumschränkt nutzen lassen sich Daten nur nach einer Anonymisierung. Allerdings ist eine echte Anonymisierung im Eigenbau unter Wahrung der Privatsphäre schwierig. Sie erfordert Zeit, Ressourcen und umfangreiche Fachkenntnisse. Zudem ergibt sich immer das Problem, zu viel oder zu wenig zu schützen. So kann die Anonymisierung nicht ausreichend sein und die Daten unzureichend schützen. Oder sie kann die Daten so weit ändern, dass sie für eine Vielzahl von Anwendungsfällen kaum noch brauchbar sind. Der Datenschutzforscher Paul Ohm schrieb daher schon 2010: „Daten können entweder nützlich oder perfekt anonymisiert sein - aber niemals beides.“
Etablierte Verfahren zu einer echten Datenanonymisierung gibt es inzwischen einige. Sie wurden auch bereits in Software-Produkten umgesetzt. Eine Standard-Anonymisierungstechnik ist k-Anonymity. Sie wird beispielsweise von Google verwendet. Der k-Anonymity liegt die Idee zugrunde, bestimmte Identifikatoren zu Gruppen mit gleichem Informationsgehalt zusammenzufassen, sodass die hinter den Daten stehenden Individuen nicht mehr unterscheidbar sind und eine Verknüpfung mit damit zusammenhängenden Informationen nicht mehr möglich ist.
Jonathan Ukena
Jonathan Ukena
Leiter Big Data Privacy Services bei Telefónica
www.telefonica.de
Foto: Telefónica
„Wir können Daten je nach Fragestellung sicher und flexibel analysieren und dabei verschiedene Datenquellen unter Wahrung der Anonymität einbeziehen.“
Das Verfahren wird gern im Gesundheitswesen eingesetzt. Professor Johann Eder von der Universität Klagenfurt erläutert das Verfahren auf der Technologie- und Methodenplattform für die vernetzte medizinische Forschung TMF so: „,k‘ steht für die Größe der Gruppe. Je höher das ,k‘ ist, desto stärker die Anonymisierung. Zuerst identifizieren wir im Datenbestand die Quasi-Identifier: Das sind all jene Felder, deren Inhalt ein potenzieller Angreifer kennen kann. Typische Kandidaten sind Geburtsdatum, Alter, Beruf, Wohnort, Geburtsort und so weiter. Die Inhalte dieser Felder werden verallgemeinert, indem etwa der Geburtsort durch den Landkreis ersetzt wird, das Alter durch eine Altersgruppe. Die Daten werden so weit verallgemeinert, dass es zu jedem Datensatz ,k-1‘ Datenzwillinge gibt. Wird beispielsweise ,k‘ mit 7 festgelegt, müssen also sieben Datensätze dieselbe Kombination von Werten in den quasi-identifizierenden Feldern haben. Ein Angreifer kann so keinen einzelnen Datensatz identifizieren, sondern nur mehr eine Gruppe von ‚k‘ Datensätzen.“
Um k-anonymisierte Datensätze handelt es sich zum Beispiel bei den Ortsdaten der Telefonkunden, die die Data Anonymization Platform von Telefónica Deutschland Partnern und Kunden zur Verfügung stellt. „Unser Anonymisierungsverfahren zeigt, dass der Schutz von Daten und das Gewinnen interessanter Erkenntnisse keinen Widerspruch darstellen. Wir können Daten je nach Fragestellung sicher und flexibel analysieren und dabei auch verschiedene Datenquellen unter Wahrung der Anonymität einbeziehen“, versichert Jonathan Ukena, Leiter Big Data Privacy Services bei Telefónica.
Verwandte Themen