Datenanonymisierung für Web Analytics und Marketing. Das sollten Sie unbedingt wissen!

,

Geschrieben von Karolina Lubowicka, Sebastian Voigt

Veröffentlicht August 02, 2018

Angesichts der DSGVO suchen viele Unternehmen nach Möglichkeiten, personenbezogene Daten zu verarbeiten und zu nutzen, ohne gegen die neuen Regeln zu verstoßen.

Marketingexperten messen dem Thema Anonymisierung seit den Änderungen durch das neue EU-Gesetz noch einmal größere Bedeutung zu. Das liegt hauptsächlich an zwei Aspekten, die sich grundlegend verändert haben:

  1. Um personenbezogene Daten speichern und verarbeiten zu dürfen, ist eine eindeutige Einwilligung erforderlich. Diese muss freiwillig, explizit, informierend und eindeutig sein. Nur dann kann sie als Grundlage für die Verarbeitung von Benutzerdaten dienen.
  2. Die DSGVO hat keine sog. Großvater-Regelung. Das bedeutet, vorhandene Daten dürfen nicht weiterverwendet werden und müssen gelöscht werden, wenn sie zuvor auf nicht konforme Weise (z. B. ohne Einwilligung) gespeichert wurden.

Eine weitere Möglichkeit besteht darin, nach anderen Rechtsgrundlagen zu suchen. Sie ermöglichen uns, Daten zu verarbeiten und historische Analysedatenbanken zu verwenden, ohne in eine Grauzone zu geraten.

Eine der günstigsten Methoden scheint die Datenanonymisierung zu sein. Dies kann sich als gute Strategie erweisen, um die Vorteile beizubehalten und gleichzeitig die mit dem Umgang mit Benutzerdaten verbundenen Risiken zu verringern.

Definitionen Anonymisierung & Pseudonymisierung

Es geht sowohl bei der Anonymisierung als auch bei der Pseudonymisierung darum, individuelle Personen nicht mehr identifizieren zu können. Direkt identifiziert werden können Personen anhand von Namen, Adresse, Postleitzahl, Telefonnummer, Fotos und anderen individuellen Merkmalen.

Doch auch die Möglichkeit zur indirekten Identifikation soll ausgeschlossen werden. Daher dürfen Informationen nicht mit anderen Quellen verknüpft sein, die wiederum personenbezogene Daten enthalten. Auch Daten wie Arbeitgeber, Position und Gehalt sind schützenswert.

Die beiden Methoden, um die Identifikation einer Person zu verhindern, unterscheiden sich wie folgt:

Anonymisierung

Nach § 3 Abs. 6 BDSG ist Anonymisierung:

„Das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können.“

In einem Beispiel ist Anonymisierung schnell anschaulich gemacht. Stellen Sie sich eine Liste vor, in der Sie Kunden einpflegen. Zu jedem Kunden speichern Sie Vor- und Nachname, Geburtsdatum und die Produkte, die er oder sie bei Ihnen gekauft hat. Außerdem enthält jeder Datensatz eine eindeutige Identifikationsnummer.

IDNachnameVornameGeburtsdatumKäufe
0001MustermannMax01.04.1999Piwik PRO Hoodie schwarz XL

Um diese Liste zu anonymisieren, entfernen Sie Vor- und Nachname sowie das Geburtsdatum. Die Identifikationsnummer und die getätigten Käufe bleiben übrig.

IDKäufe
0001Piwik PRO Hoodie schwarz XL

So enthält Ihre Liste keine personenbezogenen Daten mehr und gilt als anonymisiert.

Pseudonymisierung

Laut § 3 Abs. 6a BDSG ist Pseudonymisierung:

„Das Ersetzen des Namens und anderer Identifikationsmerkmale durch ein Kennzeichen zu dem Zweck, die Bestimmung des Betroffenen auszuschließen oder wesentlich zu erschweren.“

An unserem oben genannten Beispiel zur Anonymisierungen können wir auch die Pseudonymisierung erklären. Dazu ziehen wir erneut alle nicht personenbezogenen Daten aus der Ausgangstabelle:

IDKäufe
0001Piwik PRO Hoodie schwarz XL

Für die Pseudonymisierung erstellen wir eine zweite Tabelle, die die gleichen eindeutigen Identifikationsnummern enthält. Die aus der vollständigen Tabelle entfernten Daten – Vorname, Nachname und Geburtsdatum – werden dann den IDs zugeordnet.

IDNachnameVornameGeburtsdatum
0001MustermannMax01.04.1999

Die zweite Tabelle enthält natürlich personenbezogene Daten, die der Indentifikationsnummer der ersten Tabelle zugeordnet werden können. Um die Sicherheit dieser Daten zu garantieren, muss sie verschlüsselt werden, sodass der Zugriff auf die Liste beschränkt werden kann.

Pseudonymisierung hat in der DSGVO nicht den gleichen Stellenwert wie Anonymisierung. Schließlich gibt es eine Referenztabelle mit eindeutigen Daten. Die Vorteile von Pseudonymisierung, wie z. B. ein geringerer technischer und organisatorischer Schutzbedarf der Daten, machen die Methode dennoch attraktiv.

Das Thema wird etwas näher auf Datenschutzbeauftragter-Info beleuchtet:
Pseudonymisierung: was ist das eigentlich?

Der große Vorteil von Anonymisierung

Unternehmen, die Anonymisierung einsetzen, profitieren von einem sehr wichtigen Fakt:
Anonymisierte Daten gelten nicht als personenbezogene Daten.

Die DSGVO sagt in Erwägungsgrund 26:

“Die Grundsätze des Datenschutzes sollten daher nicht für anonyme Informationen gelten, d. h. für Informationen, die sich nicht auf eine identifizierte oder identifizierbare natürliche Person beziehen, oder personenbezogene Daten, die in einer Weise anonymisiert worden sind, dass die betroffene Person nicht oder nicht mehr identifiziert werden kann.”

Das bedeutet, dass anonymisierte Daten keine zusätzlichen Sicherheitsmaßnahmen benötigen. Deshalb ist unter anderem:

  • Eine Einwilligung zur Datenverarbeitung nicht erforderlich
  • Der Verarbeitungszweck nicht festgelegt (Sie können die Daten also anders verwenden und sogar verkaufen)
  • Eine unbegrenzt lange Speicherung der Daten möglich
  • Die Speicherung an beliebigen Standorten erlaubt

Mit anderen Worten, Sie können es für praktisch jeden gewünschten Zweck frei verwenden.

Darüber hinaus zeigen Sie durch eine Anonymisierungs-Strategie, dass Sie das Thema Datenschutz ernst nehmen und die Privatsphäre Ihrer Besucher respektieren. Datenschutzexperten schätzen die Methode ein als:

  • Teil einer Strategie, die dem Privacy by Design-Konzept folgt
  • Teil einer Strategie zur Risiko-Minimierung
  • Teil einer Strategie zur Daten-Minimierung
  • Möglichkeit, Datenschutzverstöße zu minimieren

Diese Vorteile ergeben sich jedoch aus einer Tatsache: Die Anonymisierung ist ein sehr komplizierter und anspruchsvoller Prozess. Es erfordert viel Vorbereitung und den Einsatz spezieller Techniken. Die Vorteile, die Sie erhalten, sind eher eine Belohnung für Ihre harte Arbeit als eine niedrig hängende Frucht.

Zum Thema Privacy by Design haben wir einen lesenswerten Blogartikel für Sie:
Privacy by Design & Privacy by Default – Was Sie in Zeiten der DSGVO wissen sollten

Welche Daten sollten anonymisiert werden?

Die Liste der Daten, die anonymisiert werden sollten, um der DSGVO zu entsprechen, ist recht lang. Alle Informationen, die als personenbezogen gelten, fallen darunter. Neben dem Offensichtlichen wie Namen, Adressen etc. unterliegen beispielsweise auch diese Daten den Bestimmungen:

  • Login-Daten
  • Geräte-IDs
  • IP-Adressen
  • Cookies
  • Browsertyp
  • Gerätetyp
  • Informationen zu installierten Plug-Ins
  • Einstellungen zur Sprache und Zeitzone
  • technische Details wie Bildschirmgröße, Systemschriften etc.

Die beliebtesten Methoden zur Anonymisierung

Besonders zu beachten beim Thema Anonymisierung ist, dass die Methode gemäß Artikel 29 Working Party Opinion 05/2014 nicht als einzige Maßnahme für den Datenschutz angesehen werden sollte.

Stattdessen sind eine Vielzahl an unterschiedlichen Methoden erforderlich, um die Datensätze permanent zu schützen. Der gesamte Datenschutz-Prozess benötigt viele Ressourcen und Aufwände.

Die Liste der Ansätze, die als ausreichend sicher gelten können, ist übersichtlich. Unter den von der Article 29 Working Party akzeptierten Anonymisierungs-Methoden finden sich zwei besonders verbreitete Ansätze:
Randomization und Generalization.

Techniken, die unter die beiden Ansätze fallen, sind die Folgenden:

Randomization:

Noise Addition: personenbezogene Identifikatoren werden unpräzise ausgedrückt (eine Person wird z. B. aufgrund eines Merkmals, z.B. ihrer Größe einer Gruppe zugeordnet, allerdings erfolgt dies sehr unspezifisch. Ist die Person 1,70 m groß, wird sie der Gruppe 1,64 m bis 1,78 m zugeteilt. Diese Zuordnung folgt keiner bestimmten Regel, die Einteilung ist sehr zufällig generiert).

Substitution/Permutation: Personenbezogene Identifikatoren werden in einer Tabelle auf dem Zufallsprinzip basierend durcheinander gebracht oder mit zufälligen Werten ersetzt (z. B. eine PLZ mit einem Wort).

Differential Privacy: Personenbezogene Identifikatoren eines Datensatzes werden mit einem anonymisierten Datensatz verglichen, der von einer Third Party gehostet wird. Per Instruktion soll Noise erzeugt werden und ein annehmbares Maß an Datenverlust wird definiert.

Generalisierung

Aggregation/K-Anonymity: Personenbezogene Identifikatoren werden zu einer definierten Obergruppe bzw. einem Spektrum generalisiert (z. B. das Alter 30 wird zu 20-35).

L-Diversity: Personenbezogene Identifikatoren werden erst generalisiert, anschließend wird dafür gesorgt, dass jedes Attribut einer Klasse mindestens einmal vorhanden ist (z. B. Eigenschaften werden personenbezogenen Identifikatoren zugewiesen und jede Eigenschaft taucht zu mindestens einer festgelegten Anzahl im Datensatz auf).

Umfassender Guide für DSGVO-konformes Consent Management

Lesen Sie, wie Sie Einwilligungen gesetzeskonform sammeln, wie das Consent-Formular aussehen kann u.v.m.

Häufige Gefahren der Anonymisierung

Jede dieser beschriebenen Methoden zur Anonymisierung hat ihre Fallstricke, vor allem im Test gegen die drei gängigsten Risiken, die beim Anonymisieren Ihrer Daten auftreten können. Diese Risiken sind:

  • Singling Out
    Die Möglichkeit, einige oder alle Verweise zu isolieren, die eine Person in Ihrer Datenbank identifizieren können
  • Verknüpfbarkeit
    Die Möglichkeit, mindestens zwei Informationen zu einer individuellen Person oder einer Gruppe betroffener Personen aus einer oder unterschiedlichen Datenbanken miteinander verknüpfen zu können
  • Rückschlüsse
    Die Möglichkeit, den Wert eines Attributs auf Grundlage anderer Attribute mit hoher Wahrscheinlichkeit erschließen zu können

In folgender Tabelle sehen Sie die Vor- und Nachteile jeder Methode:


.tg {border-collapse:collapse;border-spacing:0;border-color:#ccc;}

.tg td{font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:0px;overflow:hidden;word-break:normal;border-top-width:1px;border-bottom-width:1px;border-color:#ccc;color:#333;background-color:#fff;}

.tg th{font-family:Arial, sans-serif;font-size:14px;font-weight:normal;padding:10px 5px;border-style:solid;border-width:0px;overflow:hidden;word-break:normal;border-top-width:1px;border-bottom-width:1px;border-color:#ccc;color:#333;background-color:#f0f0f0;}

.tg .tg-yw4l{vertical-align:top}

 Ist Singling Out möglich?Ist Verknüpfbarkeit möglich?Sind Rückschlüsse möglich?
Noise AdditionJaNicht zwingendNicht zwingend
SubstitutionJaJaNicht zwingend
Aggregation/K-AnonymityNeinJaJa
L-diversityNeinJaNicht zwingend
Differential privacyNicht zwingendNicht zwingendNicht zwingend

Quelle: Article 29 Working Party, Opinion 05/2014 on Anonymisation Techniques

Aufgrund dieser Risiken ist es äußerst ratsam, nicht nur eine sondern eine Kombination aus mehreren Anonymisierungs-Methoden zu verwenden, um die Wiederherstellung einzelner Datensätze zu vermeiden. Doch auch eine Kombination verschiedener Anonymisierungs-Strategien bietet keine absolute Sicherheit.

Es gibt eine Vielzahl an unterschiedlichen öffentlichen Datenbanken, die zur übergreifenden Referenz genutzt werden können. Jeder Datensatz mit einer gewissen Informationsmenge hat deshalb gute Chancen, Übereinstimmungen in einem dieser öffentlichen Datensätze aufzuweisen.

Latanya Sweeney demonstrierte im Jahr 2000, dass 87% der amerikanischen Bevölkerung eindeutig identifiziert werden kann ausschließlich anhand einer Kombination aus PLZ, Geschlecht und Geburtsdatum.

Aus diesem Grund ist es wichtig, trotz Anonymisierung dem Daten-Minimierungs-Prinzip zu folgen und nur das erforderliche Mindestmaß an Daten zu speichern. So senken Sie die Möglichkeit einer Verknüpfbarkeit mit öffentlichen Datenbanken.

Welche Optionen haben Sie noch

Die oben vorgestellten Techniken werden normalerweise auf Datensätze angewendet, die personenbezogene Daten enthalten. Dies bedeutet, dass Sie Einwilligungen einholen müssen, um es trotzdem verwenden zu können.

Sie sollten sich jedoch bewusst sein, dass es auch eine Möglichkeit gibt, von Anfang an anonyme Daten zu erfassen. Sie entziehen sich erfolgreich der Verpflichtung, die Einwilligung der betroffenen Person einzuholen, bevor Sie mit der Verarbeitung der Daten beginnen.

Dazu benötigen Sie eine Analysesoftware, die die Anonymisierung von Daten ermöglicht (dies ist bei Google Analytics leider nicht der Fall, denn es in GA wird immer eine Client ID erstellt, mit der der User identifiziert werden könnte).

So wird die Anonymisierung bei Piwik PRO durchgeführt:

Wenn die anonyme Datenerfassung für einen Besucher aktiviert ist, wird dem Tracker der Parameter “User ist anonym” (UIA) hinzugefügt. Für anonyme Besucher gelten folgende Piwik PRO-Instanzeinstellungen:

  • Die Geolokalisierung ist ganz oder teilweise deaktiviert. Abhängig von den Instanzeinstellungen zeichnet Piwik PRO nur die Länderinformationen oder gar nichts auf. Einem zugeordneten Webserver wird dieselbe maskierte IP-Adresse angezeigt.
  • Es werden keine Fingerabdruckdaten verwendet, um wiederkehrende Benutzer zu identifizieren. Die Merkmale des Geräts oder Browsers des Besuchers (Betriebssystem, Browserinformationen, Spracheinstellungen usw.) werden nicht verglichen, um Benutzer zu identifizieren.
  • Eine Cookie-ID (“Besucher-ID”) wird im Browser des Besuchers gespeichert. Die Dauer dieses Cookies ist auf 30 Minuten festgelegt. Danach wird es vom Browser automatisch gelöscht. Daher beschreibt die Online-Kennung einen Besuch und keinen Besucher.

Diese Art der Datenanonymisierung ermöglicht es Ihnen, zumindest einige Informationen über das Benutzerverhalten (z. B. Anzahl der Besucher, Seitenaufrufe, Conversions und auf der Website verbrachte Zeit) zu sammeln, ohne um Zustimmung zu bitten.

Nachteile von Anonymisierung

Trotz der großen Vorteile der Anonymisierung, gibt es auch Nachteile.

Halten Sie immer im Hinterkopf, dass Sie neu gewonnene Daten von Ihrer Website anonymisieren. Dabei haben Sie zwei Möglichkeiten. Entweder Sie erhalten einen Consent von Ihren Besuchern und anonymisieren dann Daten, wie Cookies, IP-Adressen und Device IDs, nachdem sie gespeichert wurden; oder Sie erheben von vornherein nur anonyme Daten.

Beim letzteren wären die Daten auf Page Views limitiert, da die meisten Metriken und Reports persönliche Daten benötigen, wie zum Beispiel einzelne Page Views, einzelne Besucher, User Location usw.

So gut sich dieser Ansatz auch anhört, er entzieht Ihnen auch alle wertvollen Einsichten, die Sie mit detaillierten Informationen über Ihre Kunden erhalten könnten.

Indem Sie alle nennenswerten Identifizierungen ausschließen, machen es Ihnen die Daten unmöglich eine personalisierte Strategie auf Ihren Kunden und Besuchern anzuwenden – zu Beispiel, indem Sie Ihren Kunden zugeschnittene Nachrichten und dezidierte Angebote zukommen lassen.

Der Prozess, Einwilligungen zur Datenverarbeitung einzuholen, lässt sich automatisieren. Viele Anbieter von Marketing-Softwarelösungen bieten sogenannte Consent Management Tools an. Damit kommen Sie Ihrem Ziel, Daten DSGVO-konform zu speichern, einen großen Schritt näher und müssen nicht darauf verzichten, Insights zu den Besuchern Ihrer Website oder App zu erhalten.

Deshalb kann es sich in manchen Fällen lohnen, alte Datensätze zu opfern und den zusätzlichen Aufwand in Kauf zu nehmen, um Kunden ein hohes Level an Sicherheit und Transparenz zu bieten. Es unterstützt diese dabei, Ihnen ihre persönlichen Daten mit einem guten Gefühl zu überlassen. Sie können die Informationen dann dazu nutzen, Ihren Kunden personalisierten Content und eine tolle User-Experience zu bieten.

Statistiken beweisen, dass Personalisierung eine heranwachsend erfolgreiche Taktik darstellt. Des Weiteren, Kunden geben Ihre Daten freiwillig her, wenn sie einen Nutzen daraus ziehen können:

First Party-Daten sind die wertvollsten Informationen, die ein Marketer haben kann. Wir haben deshalb bereits viel darüber berichtet. Hier finden Sie einen Auszug weiterführender Artikel:

Sie erhalten diese Daten – datenschutzkonform – durch die Einwilligung Ihrer Nutzer zur Verarbeitung und Speicherung. Das sollten Sie sich an dieser Stelle bewusst machen.

Fazit

Anonymisierung hebt Ihre Daten klar auf ein hohes Sicherheitsniveau und befreit Sie von DSGVO-Verpflichtungen. Auf der anderen Seite nimmt sie Ihnen auch die Möglichkeit, von den großen Vorteilen personenbezogener Daten zu profitieren. Mit Roh-Daten können Sie Segmente erstellen, individuelle Kampagnen starten und Content für Ihre Besucher personalisieren.

Es lohnt sich daher – unabhängig davon, für welche Variante Sie sich entscheiden – einen Blick auf weitere Sicherheitsmaßnahmen und Aspekte zu werfen, die zu DSGVO-Compliance führen.

Beispielsweise speichern Sie Ihre Daten mit Piwik PRO Analytics an einem Ort Ihrer Wahl. Nutzen Sie Ihre eigene Infrastruktur, eine Third Party-Datenbank oder eine sichere Cloud mit Servern in der EU und/oder den USA. Darüber hinaus können Sie SAML, Authentifizierung und Audit Log nutzen und von professionellem Support profitieren.

Piwik PRO Consent Manager

Sammeln, Verarbeiten und Speichern Sie Einwilligungen und Anfragen betroffener Personen DSGVO-konform.