Daten trotz DSGVO ohne Einschränkung nutzen

Im Gespräch mit Sebastian Weyer von Statice

von - 18.09.2019
Sebastian Weyer
Sebastian Weyer: Co-Gründer und CEO des Anonymisierungs-Start-ups Statice
(Quelle: Statice )
Das Start-up Statice hilft Unternehmen, sensible Daten zu anony­misieren. Im Interview mit com! professional erklärt Co-Gründer Sebastian Weyer, warum Anonymisierung viel besser ist als Pseudonymisierung und was die Methode von Statice besonders macht.
com! professional: Herr Weyer, warum erlebt das Thema Daten­anonymisierung gerade jetzt einen Aufschwung?
Sebastian Weyer: Mit Inkrafttreten DSGVO im Mai 2018 wird für Unternehmen die Nutzung der sensiblen Kundendaten immer komplizierter. Unternehmen müssen heutzutage darauf achten, dass sie personenbezogene Daten nur im Rahmen eines klaren Verarbeitungszwecks bearbeiten dürfen - und das ist nicht immer leicht. Die Anonymisierung dieser Daten gibt ihnen die Möglichkeit, ihre Daten auch für weitere Zwecke ganz legal zu verarbeiten. Wobei Anonymisierung heißt, die Daten so zu verändern, dass es absolut keinen Bezug mehr auf eine echte Person gibt.
com! professional: In welchen Bereichen ist es besonders wichtig, dass die Daten anonymisiert werden?
Weyer: Allgemein sind alle Unternehmen betroffen, die mit Daten von EU-Kunden zu tun haben. Besonders wichtig ist die Datenanonymisierung für Unternehmen, die auf personenbezogene Daten und deren Auswertung angewiesen sind. Dazu gehören beispielsweise Unternehmen im Finanz- oder Gesundheitswesen. Unabdingbar ist die Datenanonymisierung vor allem für Unternehmen, die im Rahmen der Digitalisierung Daten für neue Produktentwicklungen und besseren Kundenservice benötigen. Sie müssen sensible Kundendaten auswerten.
com! professional: Es reicht also nicht, Daten wie Name oder Geburtsdatum zu löschen, um einen Datensatz zu anonymisieren.
Weyer: Ganz genau. Das ist auch leider der Trugschluss, dem viele Unternehmen heutzutage noch unterliegen. Der Gesetzestext unterscheidet ganz klar zwischen Pseudonymisierung und Anonymisierung.
Pseudonymisierung ist das, was Sie gerade beschrieben haben: Man löscht oder verändert den Namen oder andere persönliche Daten. Anonymisierung ist viel stärker: Es heißt wirklich, die garantierte Re-Identifizierung einer echten Person unmöglich zu machen. Der Gesetzestext sagt, dass Daten erst dann als anonym einzustufen sind, wenn es selbst mit signifikantem Rechen- und anderem Aufwand nicht möglich ist, Daten auf Einzelpersonen zurückführen zu können. Das ist auch deshalb wichtig, weil Pseudonymisierung - wie schon häufig bewiesen - nicht sicher ist.
com! professional: Haben Sie dafür ein Beispiel?
Weyer: Vor ungefähr zehn Jahren veröffentlichte Netflix einen sehr großen, schlecht anonymisierten Nutzerdatensatz, damit externe Forscher und Data Scientists damit ihren Kernalgorithmus verbessern konnten. Eine außenstehende Person stellte dann bei Inspektion der Daten fest, dass man sie mit der International Movie Database IMDB verbinden konnte. Basierend auf den Bewertungen von Filmen konnte die Person einen Großteil der Daten auf Einzelpersonen zurückführen. Das ist ein gutes Beispiel dafür, dass Anonymisierung per se leider nicht trivial ist, sondern ein sehr komplexes Unterfangen.
com! professional: Wie wird Anonymisierung sicher?
Weyer: Bei der k-Anonymisierung etwa aggregiert man Daten­sätze aus gewissen Attributen. Beim Attribut „Geburtsdatum“ heißt das, dass eine Person, die im Jahr 1975 geboren wurde, in diesem neuen Datensatz nur noch als Person erscheint, die zwischen den Jahren 1970 und 1980 geboren ist. Das Problem dabei ist allerdings: Je sicherer man die Daten macht und je besser man sie anonymisiert, umso mehr verlieren sie an Aussagekraft.
com! professional: Wie kann man das besser lösen?
Weyer: Wir haben eine Software entwickelt, die im Kern aus einem generativen Modell besteht, einem Machine-Learning-Algorithmus, der auf einen Datensatz trainiert wird und durch dieses Training die statistischen Informationen und Strukturen der Originaldaten erlernt. Mit diesem Wissen wird ein komplett neuer, „synthetischer Datensatz“ generiert, der keine originalen Einträge mehr hat, sondern aus komplett neuen künstlichen Datenpunkten besteht, die den echten Datensatz mit seinen statistischen Informationen und Strukturen widerspiegeln. So eine Anonymisierung ist erst seit etwa zwei Jahren durch das Aufkommen von Deep-Learning-Frameworks wie TensorFlow umsetzbar.
com! professional: Wie hat man sich das vorzustellen?
Weyer: Die vollständig neu generierten Daten enthalten die sehr detaillierten, granularen und statistisch relevanten Informationen des Originals, ohne dass man mit den echten Daten arbeiten müsste. Die Technologie lässt sich mit den kürzlich in der Presse thematisierten Deep Fakes vergleichen. Bei diesen Deep Fakes generieren Algorithmen Bilder und Videos von Menschen, die aussehen wie echte Menschen, aber keine echten Menschen sind. Die Technologie ist der unseren ähnlich. Nur dass wir anstelle von Bildern statistisch Daten und strukturierte Daten generieren, und sich diese statistisch gesehen an den Echtdaten orientieren. Sie sehen aus wie echte Daten, es sind aber keine echten Daten drin.
com! professional: Wie sieht die Verbindung zum Original-Datensatz aus? Legen Sie Kriterien fest, was anonym bleiben soll?
Weyer: Nein. Das ist genau der Fehler, den man bei der Pseudonymisierung von Daten macht. Hier werden bestimmte Attribute als sensibel und andere als nicht sensibel eingestuft. Das ist keine Anonymisierung. Warum? Wie das Netflix-Beispiel zeigt, gibt es in jedem Datensatz sogenannte Quasi-Identifikatoren, die auf den ersten Blick überhaupt nicht sensibel erscheinen, aber durch Hinzuziehen von anderen Datenquellen Rückschlüsse auf Echtpersonen zulassen können. Wir hingegen machen so eine Unterscheidung zwischen sensiblen und weniger sensiblen Informationen nicht. Wir gehen davon aus, dass jedes einzelne Attribut in einem Datensatz sensibel ist und dementsprechend neu generiert werden muss. Also nehmen wir den gesamten Datensatz und generieren daraus einen komplett neuen Datensatz.
com! professional: Welche unterschiedlichen Anonymisierungs­ansätze gibt es?
Weyer: Grob kann man zwei Ansätze unterscheiden. Zum einen wird versucht, Daten so aufzubereiten, dass sie möglichst frei genutzt werden können. Zu diesen Data-Release-Lösungen zählt unser Verfahren. Dabei werden komplette Datensätze so anonymisiert, dass man sie bedenkenlos weitergeben kann. Zum anderen gibt es sogenannte Query-Interfaces. Dabei zieht man aus einer bestimmten Datenbank über ein Interface anonym aggregierte Informationen. Das ist zwar praktisch für Use Cases, die etwa Statistiken auslesen oder Dashboards bauen. Die meisten Unternehmen wollen aber Daten komplexer nutzen, gerade für Machine Learning.
com! professional: Welche Branchen fragen Ihren Anonymisierungsdienst besonders stark nach?
Weyer: Wie sind sehr stark im Gesundheits- und Automobilbereich aktiv sowie im Versicherungs- und Finanzwesen. Gerade in diesen Segmenten sind Daten höchst sensibel, und sie haben gleichzeitig auch einen starken Mehrwert für Unternehmen, wenn diese etwa für Produktinnovationen ausgewertet werden.
Verwandte Themen