Zum Inhalt springen

DSGVO

Identifiziert durch „Hund, der auf alles uriniert“

Von

Artikel teilen

Die Studentin Latanya Sweeney hatte irgendwie kein Vertrauen in die Worte des Gouverneurs von Massachusetts. Eine dort ansässige staatliche Versicherung hatte gerade eine Datenbank veröffentlicht, die Informationen über Angestellte des öffentlichen Dienstes enthielt und deren Krankenhausbesuche listete. Das Versprechen des Gouverneurs: Niemand müsse sich vor Datenmissbrauch fürchten, denn die persönlichen Identifikationsmerkmale seien gelöscht worden und eine Zuordnung damit unmöglich. Sweeney wollte das Gegenteil beweisen, sicherte sich für 20 Dollar die Akten und fing an, zu recherchieren. Was sie vom Gouverneur wusste: dass er in Cambridge wohnt, einer Stadt mit 54.000 Menschen und sieben Postleitzahlen, und dessen Geburtsdatum. Diese Merkmale waren in der Datenbank nur sechsmal vorhanden, und drei der Personen davon waren männlich. Sweeney konnte den Gouverneur innerhalb kurzer Zeit identifizieren und schickte ihm sein Krankenblatt inklusive Diagnosen per Post. - Das war Mitte der Neunziger.

Damals schätzte Sweeney, dass 87 Prozent aller Menschen in den USA durch nur drei Informationen in anonymisierten Datensätzen identifiziert werden können: die Postleitzahl, das Geschlecht und das Geburtsdatum. Drei Forscher haben diese Wahrscheinlichkeit nun auf bis zu 99,98 Prozent erhöht, abhängig von der Anzahl der Hinweise. Sie haben Sweeneys Beispiel mit verschiedenen Variablen noch einmal durchgespielt und daraus ein statistisches Modell entwickelt, um herauszufinden, wie wahrscheinlich es ist, eine Person aus einem scheinbar anonymisierten Datenset zu identifizieren. Anonymisiert heißt, dass bereits vorhandene Informationen ausradiert werden, damit die Menschen hinter den Daten diesen nicht länger zugeordnet werden können. Doch selbst wenn Informationen wie Name und Mailadresse aus einem Datensatz gestrichen werden, gelingt eine Zuordnung – und zwar für quasi jeden Menschen in den USA, wie die Studie belegt.

Dafür werden den drei Forschern zufolge gerade mal 15 Hinweise benötigt. Ein Beispiel: Es gibt mehrere Personen in New York, die Erica heißen. Haben aber alle am 23. Juni 1990 Geburtstag, fahren ein orangenes Moped und leben mit zwei Kindern in der Bronx? Unwahrscheinlich. Liegen genügend Hinweise vor, formen die Daten zusammen betrachtet ein Bild eines Individuums. Theoretisch reichen also wenige Informationen aus, um herauszufinden, von wem die Daten eigentlich stammen. Die Forscher haben bei ihrem Modell noch mit einem relativ kleinen Datensatz gearbeitet, weisen aber darauf hin, dass es weitaus größere gibt: Die Computersoftwarefirma Alteryx beispielsweise verkauft Daten von mehr als 120 Millionen US-amerikanischen Haushalten. Geraten diese in die falschen Hände, führt das zu Identitätsklau, Erpressung und Überwachung – oder Unternehmen mit datengetriebenen Geschäftsmodellen machen Geld daraus. Durch die Informationen können sie Werbung personalisieren, ohne dass die Betroffenen davon erfahren.

„Taube Finger“ und „60 Single-Männer“

Dass die Anonymisierung in Datensets nicht besonders gut funktioniert, belegen mehrere Studien. Als 2016 der Internetanbieter AOL 20 Millionen Suchanfragen von 650.000 Menschen veröffentlichte Ähnlich war es mit 500.000 offiziell anonymisierten Daten, die der Streamingdienst Netflix zu Marketingzwecken veröffentlicht hatte. Ein Forscherteam konnte den Großteil der Personen des anonymisierten Datensatzes zuordnen.

Außerdem konnten eine Investigativjournalistin und ein Datenwissenschaftler drei Millionen Daten sammeln, weil sie eine Marketingfirma fingiert und bei Unternehmen um Browserdaten gebeten hatten. Sobald sie aber wussten, welche Websites die gelisteten Personen besucht hatten, konnten sie die Daten mit anderen Informationen abgleichen. Ein Beispiel: Bei dem sozialen Medium Twitter kann man sich eine Analyse des eigenen Nutzungsverhaltens anzeigen lassen. Dafür erstellt der Dienst jeweils eine ganz eigene Internetadresse beziehungsweise URL. Diese enthält auch den Twitternamen. Normalerweise sieht diese URL nur die Person selbst – außer jemand gibt sie weiter, wie hier geschehen. Wer den Twitternamen kennt, kann somit anhand der Website-Adresse die Person dahinter finden. In den untersuchten Daten waren unter anderem die Porno-Gewohnheiten eines Richters enthalten und die Drogenvorlieben eines Politikers, beide aus Deutschland.

Es ist quasi unmöglich, in einer Datenbank unerkannt zu bleiben, selbst wenn diese offiziell anonymisiert wurde. Das nutzen viele Unternehmen, um die EU-weite Datenschutzgrundverordnung (DSGVO) zu unterlaufen, die im Mai 2018 in Kraft getreten ist. Sie soll unter anderem regeln, wie Firmen, Behörden und Vereine mit privaten Informationen umgehen dürfen und verbietet den Handel mit personenbezogenen Daten. Damit sind Informationen gemeint, “die sich auf eine identifizierte oder identifizierbare natürliche Person” beziehen. Anonymisierte Datensätze sind von der Regelung ausgenommen. Solange sie in der Praxis aber entschlüsselt werden können, ist der Schutz von Privatpersonen nicht gewährleistet. Das belegt die Studie der beiden Forscher.

Deutsche Wohnen und Knuddels.de sind kriminell

Verstoßen Unternehmen gegen die Richtlinien der DSGVO, müssen sie Strafe zahlen. So lassen sich beispielsweise die Verstöße von Einzelpersonen, Banken, Unternehmen, Krankenhäusern, perversen Fußballtrainern, Fluggesellschaften und Knuddels.de finden. Die Höhe der Summen unterscheiden sich extrem: von 47 Euro Strafzahlung einer Privatperson bis rund 205 Millionen Euro von der britischen Fluggesellschaft British Airways, je nach Schwere der Tat und Umsatz des Unternehmens. Die prominentesten Fälle sind wohl die Österreichische Post (sammelte Daten über politische Präferenzen und verkauft sie an Parteien), die weltgrößte Hotelkette Marriott International (Hacker hatten Zugriff auf Daten von 339 Millionen Gästen) und der Immobilienkonzern Deutsche Wohnen (speicherte Daten ohne die Möglichkeit, sie zu löschen).

Auch eine Studie, die das Bundesministerium der Justiz und für Verbraucherschutz in Auftrag gegeben hat, zeigt: Die meisten deutschen Unternehmen setzen die DSGVO noch lange nicht korrekt oder vollständig um, obwohl es das Gesetz mittlerweile seit zwei Jahren gibt. Von 35 untersuchten Onlinediensten vom Messenger Signal über die Suchmaschine DuckDuckGo bis zur ARD ist kein einziger ganz datenschutzkonform. Während es bei Informationspflichten und Transparenz noch am besten funktioniert, bestehen vor allem Probleme beim Umgang mit sensiblen Daten. Denn Daten weiterzugeben, ist nur in bestimmten Situationen rechtmäßig - und zwar wenn beispielsweise eine Einwilligung vorliegt oder rechtliche Pflichten erfüllt werden müssen. Nicht mitmachen geht übrigens nicht. Einzelpersonen können in den sozialen Netzwerken nicht einmal anonym bleiben, wenn sie gar nicht auf der Plattform registriert sind oder sich bereits gelöscht haben. Es braucht gerade mal acht bis neun andere Accounts, die Informationen abwerfen. Heißt: Das soziale Umfeld regelt den Rest.

Datingapps mit Milliardenumsatz und null Datenschutz

Besonders problematisch sind soziale Netzwerke und Messengerdienste. Seit den Nullerjahren erreichen Plattformen wie MySpace, Twitter und Facebook ein weltweites Publikum, das dort persönliche Informationen über die politische Einstellung, den liebsten Sportverein oder den Lieblingssong einspeist. Die Plattformen leben von diesen Daten, und wer die Apps nutzen will, muss sie hergeben. So wie bei der Dating-App Tinder, die persönliche Informationen wie sexuelle Präferenzen abfragt. Ende April 2020 zählte die Plattform 6,03 Millionen zahlende Mitglieder. Sie gehört – genau wie OkCupid – zur Match Group mit einem Umsatz von 2,05 Milliarden US-Dollar allein im Jahr 2019.

Tinder teilt die persönlichen Daten mit mindestens 45 dating-relevanten Unternehmen. Die App sendet beispielsweise GPS-Position und Zielgeschlecht an AppsFlyer und Leanplum, die Werbe-ID der Smartphones geht an Branch, Facebook und Salesforce. Die ID besteht aus einer individuellen Buchstaben- und Zahlenkombination und ist eine Art Steuernummer, über die fast jedes Mobiltelefon verfügt. Sie analysiert das Nutzungsverhalten und schaltet personalisierte Werbung. Auf diese Weise lassen sich aber auch intime Daten wie Krankheitsverläufe, Sporterfolge und Datingverhalten aus mehreren Apps zusammenführen.

In der Tinder-Datenschutzrichtlinie steht dazu: “Da es unser Ziel ist, Ihnen bei der Etablierung bedeutungsvoller Verbindungen zu helfen, geben wir Nutzerdaten vor allem an andere Nutzer weiter. Wir geben aber auch einige Nutzerdaten an Dienstanbieter und Partner weiter, die uns bei der Ausführung unserer Dienste unterstützen, an andere Unternehmen der Match Group und, in manchen Fällen, an Justizbehörden.” Die Plattform teilt die Nutzerdaten also mit so ziemlich allen. An wen konkret diese gehen, steht aber nicht in den App-Richtlinien, die beim Download akzeptiert werden müssen. Damit steht die Flirtapp aber bei Weitem nicht alleine da. In einer Verbraucherstudie wurde eine überschaubare Anzahl von zehn beliebten Apps untersucht: Die zusammen geben bereits Daten an 135 Trackingunternehmen weiter. Diese wiederum können gesammelte Informationen an weitere Unternehmen senden oder verkaufen.

Latanya Sweeney war im Jahr 2001 die erste afroamerikanische Frau, die an ihrem Institut den Doktor gemacht hat und ist mittlerweile Professorin für Government and Technology in Harvard und Direktorin des Datenschutzlabors am Institut für quantitative Sozialwissenschaften. Bei einem ihrer Vorträge fragte eine Zuschauerin, was Sweeney als Expertin für Datenschutz davon halte, dass es zu Beginn der europäischen Richtlinie nur sehr wenige wissenschaftliche Erkenntnisse darüber gab, wie Gesetze und technologische Prozesse zusammen funktionieren könnten. Sweeney hätte das nicht gewundert. Ihre Antwort: Technologie und Gesetz zusammenzubringen, sei ja auch unmöglich. Gesetze seien für Jahre oder Monate gemacht. Technologie hingegen funktioniere auf Tagesbasis.

Aktuelle Ausgabe

KATAPULT ist gemeinnützig und unabhängig. Wir finanzieren uns durch Spenden und Abonnements. Unterstützen Sie unsere Arbeit und abonnieren Sie das gedruckte Magazin für nur 19,90 Euro im Jahr.

KATAPULT abonnieren

Fußnoten

  1. Barth-Jones, Daniel: The »Re-identification« of Governor William Weld's Medical Information: A Critical Re-examination of Health Data Identification Risks and Privacy Protections, Then and Now, New York 2012.
  2. Kearns, Michael; Roth, Aaron: The Ethical Algorithm. The Science of Socially Aware Algorithm Design, Oxford 2020, S. 23.
  3. Rocher, Luc; Hendrickx, Julien; de Montjoye, Yves-Alexandre: Estimating the success of re-identifications incomplete datasets using generative models, in: Nature Communications, (10)2019, Nr. 3069.
  4. Brewster, Thomas: 120 Million American Households Exposed In 'Massive' ConsumerView Database Leak, auf: forbes.com (19.12.2017).
  5. Rocher/Hendrickx/de Montjoye 2019, S. 2.
  6. Arrington, Michael: AOL Proudly Releases Massive Amounts of Private Data, auf: techcrunch.com (7.8.2006).
  7. Nocun, Katharina: Die Daten, die ich rief. Wie wir unsere Freiheit an Großkonzerne verkaufen, Köln 2018 Köln.
  8. Narayanan, Arvind; Shmatikov, Vitaly: How To Break Anonymity of the Netflix Prize Dataset, Austin 2017.
  9. Hern, Alex: 'Anonymous' browsing data can be easily exposed, researchers reveal, auf: theguardian.com (1.8.2017).
  10. Ward, Mark: It is easy to expose users' secret web habits, say researchers, auf: bbc.com (31.7.2017).
  11. Art. 4 Abs. 1 DSGVO.
  12. Compliance Essentials GmbH (Hg.): Geldbußen für DSGVO-Verstöße und für Verletzungen anderer Datenschutzgesetze, auf: dsgvo-portal.de.
  13. Helmschrot, Céline; Wiebe, Andreas: Untersuchung der Umsetzung der Datenschutz-Grundverordnung (DSGVO) durch Online-Dienste, 2019.
  14. Bagrow, James; Liu, Xipei; Mitchell, Lewis: Information flow reveals prediction limits in online social activity, in: Nature Human Behaviour, (3)2019, H. 2, S. 122-128.
  15. Durchschnittliche Anzahl an Abonnenten von Tinder weltweit vom 1. Quartal 2015 bis zum 1. Quartal 2020, auf: statista.com (6.5.2020).
  16. ForbrukerRadet (Hg.): Out of Control. How consumers are exploited by the online advertising industry, 2020, S. 72.
  17. Tinder (Hg.): Unsere Verpflichtungen Ihnen gegenüber, auf: policies.tinder.com (Stand 5.6.2020).
  18. ForbrukerRadet 2020.

Autor:innen

Ist seit 2019 bei KATAPULT und seit 2020 Onlinechefin. Vor allem für die Berichterstattung über sozialpolitische Themen zuständig. Zu ihren journalistischen Schwerpunkten zählen Kultur- und Arbeitsthemen.

Neueste Artikel

Rhein oder raus?

Entscheidet euch!

Amerikas längster Krieg

Vor zwanzig Jahren marschierten die USA in Afghanistan ein und stürzten das Regime der islamistischen Taliban. Nun wurden die westlichen Truppen abgezogen und binnen weniger Wochen nahmen die Fundamentalisten die Hauptstadt Kabul ein. Wie die USA ihren längsten Krieg verloren.

KATAPULT liest Wahlprogramme

Die Linke will Rente ab 65, die AfD will zurück zur Deutschen Mark und die FDP findet die Frauenquote blöd. Die Wahlprogramme der Parteien zur Bundestagswahl im Überblick