Machine Learning und der Datenschutz

Synthetisierung als Verarbeitung

von - 31.08.2020
Mit der Überführung der Originaldaten in synthetische Daten soll der Personenbezug entfallen, sodass die Anonymisierung als Verarbeitungsvorgang gemäß Art. 4 Nr. 2 DSGVO verstanden werden kann. (Siehe dazu das Positionspapier des Bundesbeauftragen für den Datenschutz und die Informationsfreiheit BfDI vom 29. Juni 2020.) Die Anonymisierung kann als Löschung (objektive Unmöglichkeit der De-Identifizierung) oder als Veränderung (De-Identifizierung nur mit unverhältnismäßigem Aufwand möglich), jedenfalls aber als Verwendung verstanden werden.
Somit ist das Synthetisieren der Daten eine Verarbeitung, die einer Rechtsgrundlage bedarf. In Betracht käme eine Einwilligung (Art. 6 Abs. 1 lit. a) oder Art. 9 Abs. 2 lit. a) DSGVO) sowie - zumindest für nicht besondere Kategorien von personenbezogenen Daten - ein überwiegendes berechtigtes Inte­resse gemäß Art. 6 Abs. 1 S. 1 lit. f) DSGVO. Die Daten, die anonymisiert werden, sind grundsätzlich zu einem anderen Zweck erhoben worden. Daher liegt eine Weiterverarbeitung zu einem anderen Zweck vor. Für die Beurteilung der Rechtmäßigkeit muss ein Kompatibilitätstest nach Maßgabe des Art. 6 Abs. 4 DSGVO durchgeführt werden.
Trainingsdaten für KI-Systeme
Trainingsdaten: KI-Systeme werden mit synthe­tischen Gesichtsbildern trainiert.
(Quelle: Nvidia)
Fraglich ist, ob in diesen Fällen überhaupt auf die Zweck­änderung gemäß Art. 6 Abs. 4 DSGVO zurückgegriffen werden kann. Teilweise wird vertreten, dass die Vorschrift im Fall einer Weiterverarbeitung voraussetzt, dass nach der Zweck­änderung noch ein Personenbezug vorhanden ist. Dieser Auffassung ist zuzustimmen. Lediglich der Zweck wird geändert, es bleibt aber eine Verarbeitung im Sinne der DSGVO.
Dem steht eine Anwendbarkeit des Art. 6 Abs. 4 jedoch nicht im Weg. Die Überführung in die Anonymität selbst ist der Verarbeitungsvorgang, der am Maßstab des Art. 6 Abs. 4 DSGVO zu messen ist, nicht hingegen die Nutzung der anonymen Daten, die außerhalb des Anwendungsbereichs der DSGVO fällt.

Des einen Freud, des anderen Leid?

Aus datenschutzrechtlicher Sicht ist es zu begrüßen, wenn KI-Systeme mit synthetischen, tatsächlich anonymen Daten trainiert werden. Damit wird per se ein Grundrechtseingriff (Art. 8 GRCh) vermieden.
Es bleibt allerdings abzuwarten und bedarf weiterer Untersuchungen, ob mit synthetischen Daten wirklich etwas gewonnen ist. Diese vermeintlich gute Entwicklung kann nämlich insgesamt einen Bumerangeffekt bewirken. So wird dem Antidiskriminierungsrecht ein wichtiger Flankenschutz wegfallen, der Datenschutz. Der Zweck des Synthetisierens ist ja gerade, dass der Informationsgehalt erhalten bleibt, um die gewonnenen Erkenntnisse in Entscheidungen einfließen zu lassen. Diese Erkenntnisse können daher weiter genutzt werden, um Entscheidungen über Personengruppen zu treffen. Es ist damit einfacher - auch für Unternehmen, die nicht Google oder Facebook heißen -, an Verhaltensdaten zu kommen, die mit einer statistischen Inferenz dafür genutzt werden können, um zum Beispiel hyperpersonalisierte Werbung anzubieten.
Das bedeutet, dass durch die Verfügbarkeit von synthetischen Daten der Markt sich dahingehend entwickeln wird, dass Dienste insgesamt individualisierter ausgestaltet werden, da aufwendig zu erstellende Trainingsdaten für eigene KI-Systeme eingekauft werden können.
Was für Auswirkungen der Hype um synthetische Daten auf die Rechte und Freiheiten von Betroffenen haben wird, wird sich erst noch zeigen. Auch wenn bestimmte Entwicklungen für einige Grundrechte mehr Sicherheit bieten, sollten sich dadurch keine Schutzlücken für andere Grundrechte auftun.
Verwandte Themen