Weniger Risiken, mehr Chancen durch Datenschutz

Die vier Prinzipien von PEC

von - 19.07.2022
Bei Privacy-Enhancing Computation gibt es vier Möglichkeiten, sensible Daten zu schützen: verschlüsseln, verschleiern (Obfuscation), entfernen oder erst gar nicht erheben. Bei der homomorphen Verschlüsselung (Homomorphic Encryption, HE) etwa bleiben die Eigenschaften der Basisdaten trotz Verschlüsselung erhalten. Laut Gartner wird es aber noch fünf bis zehn Jahre dauern, bis es zu einem großflächigen produktiven Einsatz von HE kommt. Einige Provider bieten jedoch bereits Services an (siehe Tabelle auf Seite 32). Berichten zufolge experimentiert auch Facebook/Meta mit HE. Ziel ist es, individuelle Werbung in Whatsapp einblenden zu können, ohne die verschlüsselte Kommunikation aufbrechen zu müssen.
Ein Beispiel für Verschleierung ist Data Poisoning. Dieses Verfahren kommt in erster Linie bei der Gesichtserkennung zum Einsatz. Dabei werden in Bildern nur wenige Pixel verändert. Dies genügt jedoch, um Gesichtserkennungssysteme wie Microsoft Azure Face API oder Amazon Rekognition auszutricksen. Das SAND Lab (Security, Algorithms, Networks and Data) der Universität Chicago hat mit Fawkes1 eine Software entwickelt, mit der Anwender ihre öffentlich zugänglichen Bilder verschleiern können.
Bei der Anonymisierung werden sensible Informationen vor der Weitergabe oder Verarbeitung von Datensätzen gelöscht. Die Systeme erkennen die zu entfernenden Daten entweder anhand vorgegebener Templates oder lernen selbstständig (Deep Natural Anonymization). So bietet der deutsche KI-Spezialist Brighter AI mit Brighter Redact ein System, das eine KI-basierte Anonymisierung von Bildern und Videos ermöglicht. Die Lösung kommt unter anderem in einem Pilotprojekt der Deutschen Bahn zum Einsatz, wo sie für die Auslastungsmessung in Zügen und S-Bahnen verwendet wird.
Erst gar nicht übertragen werden Informationen in Konzepten wie Federated Learning. Dabei lädt sich ein Teilnehmer beispielsweise einen Algorithmus auf sein Gerät, der dort mit den persönlichen Daten trainiert wird. Der Anwender spielt nur den trainierten Algorithmus zurück, personenbezogene Daten werden nicht übertragen. Google nutzt den Ansatz bereits, um die Suchvorschläge auf Android-Geräten zu optimieren.

PEC in Gesundheit und Verkehr

Große Bedeutung haben datenschutzfreundliche Technologien besonders im Gesundheitswesen und im Verkehrssektor. Es braucht große Mengen Patientendaten, um neuronale Netze für die Krebsdiagnostik oder die Entwicklung von Medikamenten zu trainieren. Die Risiken, dass sie in falsche Hände gelangen, sind hoch. Das Start-up Curai, ein Anbieter KI-basierter Medizin-Apps, nutzt deshalb synthetische Daten, um seine Systeme ohne sensible Patienteninfos trainieren zu können. Dafür wurden 400.000 Krankenakten simuliert und mit einem gefalteten neuronalen Netzwerk (Convolutional Neural Network, CNN) verarbeitet. Das so trainierte System soll zur Diagnostik eingesetzt werden und Patienten remote beraten können.
Das deutsche Start-up Ebenbuild setzt in einem Forschungsprojekt, das mit dem Münchner Klinikum Rechts der Isar durchgeführt wird, auf Confidential Computing. Ziel ist es, einen digitalen Zwilling der menschlichen Lunge zu entwickeln, um Beatmungstherapien individueller gestalten und die mit der Beatmung verbundenen Schäden minimieren zu können. Die Verarbeitung erfolgt in der Public Cloud, die Informationen sind aber durchgehend verschlüsselt. Berechnungen werden in einem besonders geschützten Bereich des Prozessors, der Enklave, ausgeführt.
Im Straßenverkehr ist es vor allem der Trend zum autonomen Fahren, der die Analyse großer Datenmengen erfordert. Schon heute sind moderne Fahrzeuge mit einer Vielzahl von Sensoren und Kameras ausgestattet, die große Mengen an sensiblen Daten erfassen. Wegen dieser Sammelwut erhielt der E-Mobilhersteller Tesla 2020 den Big Brother Award, einen Preis, der jährlich für eklatante Datenschutzverstöße vergeben wird.
Besonders sauer stieß den Juroren auf, dass Tesla nicht nur permanent Daten im Fahrzeug, sondern auch in dessen Umgebung erfasst. „Wenn Menschen gefilmt und aufgezeichnet werden, die nur an einem Auto vorbeigehen, ohne dass sie sich konkret verdächtig machen, ist dies klassische illegale Vorratsdatenspeicherung“, sagte Datenschutzexperte Thilo Weichert anlässlich der Verleihung.
Eine Bereinigung oder Verschleierung der von einem Fahrzeug erfassten Daten könnte das Problem lösen. So nutzt der französische Autozulieferer Valeo Deep Natural Anonymization, um personenbezogene Informationen aus Bildern zu entfernen, die mit Fisheye-Fahrzeugkameras aufgenommen wurden. Marian Gläser sieht in diesem Weg eine Chance für die europäische Autoindustrie: „Wenn es gelingt, sensible Daten in Fahrzeugen zu verarbeiten, ohne dabei gegen Datenschutzvorschriften zu verstoßen, dann ist das ein echter Wettbewerbsvorteil.“
Die wichtigsten Lösungen für Privacy-Enhancing Computation
Diese Verfahren sollten Unternehmen kennen, die auf Datenschutz Wert legen und zugleich Daten gewinnbringend verwerten wollen:
  • Confidential Computing: Confidential Computing ermöglicht es, sichere, datenschutzkonforme Berechnungen in öffentlichen Ressourcen wie der Public Cloud durchzuführen. Code und Daten werden dazu in einen speziellen Bereich des Prozessors geladen. Dieses Trusted Execution Environment (TEE) oder Enklave genannte Segment ist von der Umgebung abgeschottet und kann nur von autorisierten Anwendungen genutzt werden. Das stellt nicht nur den Schutz der Daten sicher, sondern auch die Integrität des für die Bearbeitung genutzten Codes.
  • Data Perturbation/Poisoning: Dabei werden Bilder auf Pixelebene so subtil verfälscht, dass die Veränderungen einem menschlichen Betrachter nicht auffallen, KI-basierte Systeme aber verwirrt werden und etwa Personen nicht mehr identifizieren können.
  • Data Sanitization: Verfahren, die Informationen vollständig und unwiederbringlich von Datenträgern löschen oder aus Systemen entfernen.
  • Deep Natural Anonymization: Erkennt personenbezogene Daten wie Gesichter oder Nummernschilder in Fotos und Bewegtbildern und ersetzt sie irreversibel durch synthetische Daten, die keine Rückschlüsse mehr auf die Person zulassen.
  • Differential Privacy: Dieses Verfahren erlaubt möglichst genaue Berechnungen auf einem Datenbestand mit personenbezogenen Informationen, ohne dass einzelne Personen identifizierbar sind. Dazu wird den Daten kontrolliert Rauschen hinzugefügt, das Rückschlüsse auf Einzelne erschwert, die relativen Verhältnisse der Informationen aber nicht nennenswert beeinträchtigt.
  • Dynamic Data Masking (DDM): Bei DDM werden sensible Informationen in Echtzeit aus Datenabfragen entfernt, bleiben aber in den gespeicherten Daten erhalten.
  • Federated Machine Learning: Beim föderalen Lernen erfolgt das Training von Algorithmen verteilt auf lokalen Knoten. Das können zum Beispiel Smartphones, autonome Fahrzeuge oder IoT-Geräte sein. Die Daten bleiben auf den jeweiligen Geräten, was den Daten­schutz erhöht.
  • Homomorphic Encryption (HE): Die homomorphe Verschlüsselung bewahrt die Eigenschaften von Daten in einer Weise, dass darauf weiterhin Berechnungen durchgeführt werden können. Bei einer vollständigen Homomorphic Encryption gibt es keine Einschränkungen für die Operationen, partielle HE erlaubt dagegen nur bestimmte Berechnungen, beispielsweise Multiplikation oder Addition.
  • Privacy by Design: Dieser Ansatz hat das Ziel, Datenschutz von Anfang an in die Entwicklung von Applikationen, Prozessen oder Plattformen einzubeziehen. Die Erfassung und Weiterverbreitung personenbezogener Daten soll auf das absolut notwendige Minimum begrenzt werden.
  • Secure Multi-Party Computation: Kryptografische Methoden, mit denen sich Daten von mehreren Parteien gemeinsam bear­beiten und analysieren lassen. Sensible Informationen werden dabei so verschlüsselt, dass sie von den jeweils anderen Beteiligten nicht eingesehen werden können.
  • Synthetic Data: Synthetische Daten beruhen nicht auf Messungen oder Datenerhebungen, sondern werden künstlich erzeugt. Dabei kommen meist statistische Modelle, regelbasierte Ansätze oder Deep-Learning-Algorithmen zum Einsatz.
  • Zero-Knowledge Proofs (ZKP): Mit sogenannten Null-Wissen-Beweisen können Unternehmen oder Einzelpersonen nachweisen, dass bestimmte Informationen korrekt sind, ohne diese direkt preisgeben zu müssen. ZKP können beispielsweise für die Altersverifikation oder zum Nachweis einer Fahrerlaubnis eingesetzt werden.
Gartner „Hype Cycle for Privacy“, 2021; KI Bundesverband „State-of-the-Art Report Privacy Tech“, 2021 (ergänzt, verändert)
Verwandte Themen