Datenanonymisierung für Web Analytics und Marketing. Das sollten Sie unbedingt wissen!

Veröffentlicht: August 2, 2018 Update: Juli 17, 2019 Autor , Kategorie Analytics, Datenschutz

Der Begriff Anonymisierung – gleiches gilt für die Pseudonymisierung – sorgt mitunter für Verwirrung und wird häufig von Juristen anders interpretiert als von Marketern.

In diesem Artikel betrachten wir beide Begriffe näher und zeigen Ihnen, wie sie im Bundesdatenschutzgesetz (BDSG) definiert werden und wie sich die DSGVO dieser Definition gegenüber verhält. Außerdem beleuchten wir die Vor- und Nachteile von Anonymisierung für Ihr Analytics und gehen der Frage nach, inwieweit die Methode es Ihnen erleichtert oder erschwert, Ihre Besucher gesetzeskonform und gleichzeitig effektiv zu tracken.

Wieso Anonymisierung ein großes Thema ist

Die DSGVO hat neues Öl ins Feuer gekippt. Marketingexperten messen dem Thema Anonymisierung seit den Änderungen durch das neue EU-Gesetz noch einmal größere Bedeutung zu. Das liegt hauptsächlich an zwei Aspekten, die sich grundlegend verändert haben:

  1. Um personenbezogene Daten zu speichern, ist eine Einwilligung erforderlich. Diese muss freiwillig, explizit, informiert und eindeutig sein.
  2. Die DSGVO hat keine sog. Großvater-Regelung. Das bedeutet, vorhandene Daten dürfen nicht weiterverwendet werden und müssen gelöscht werden, wenn sie zuvor auf nicht konforme Weise (z. B. ohne Einwilligung) gespeichert wurden.

Customer Journey Analysen mit der Customer Data Platform

Speichern und aktivieren Sie Ihre Kundendaten an einem zentralen Ort

Kostenlosen Demo-Termin vereinbaren

Eine solche Löschung der bisher von Ihnen gesammelten Daten möchten Sie selbstverständlich vermeiden. Um sich nicht in einer Grauzone zu bewegen können Sie auf Anonymisierung setzen. Die Strategie stellt sozusagen ein DSGVO-Compliance-Upgrade für Ihre wertvollen Bestandsdaten dar. Betrachten wir nun die Definition des Begriffs.

Sehr informativ im Hinblick auf die DSGVO sind auch die folgenden Artikel auf unserem Blog:
DSGVO Consent Management: Einwilligungen Ihrer Website-Besucher effizient einholen (inkl. Whitepaper zum Download)
Wie sich die DSGVO auf Web Analytics-Tracking auswirkt

Definitionen Anonymisierung & Pseudonymisierung

Es geht sowohl bei der Anonymisierung als auch bei der Pseudonymisierung darum, individuelle Personen nicht mehr identifizieren zu können. Direkt identifiziert werden können Personen anhand von Namen, Adresse, Postleitzahl, Telefonnummer, Fotos und anderen individuellen Merkmalen.

Doch auch die Möglichkeit zur indirekten Identifikation soll ausgeschlossen werden. Daher dürfen Informationen nicht mit anderen Quellen verknüpft sein, die wiederum personenbezogene Daten enthalten. Auch Daten wie Arbeitgeber, Position, und Gehalt sind schützenswert.

Die beiden Methoden, um die Identifikation einer Person zu verhindern, unterscheiden sich wie folgt:

Anonymisierung

Nach § 3 Abs. 6 BDSG ist Anonymisierung:

„Das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können.“

In einem Beispiel ist Anonymisierung schnell anschaulich gemacht. Stellen Sie sich eine Liste vor, in der Sie Kunden einpflegen. Zu jedem Kunden speichern Sie Vor- und Nachname, Geburtsdatum und die Produkte, die er oder sie bei Ihnen gekauft hat. Außerdem enthält jeder Datensatz eine eindeutige Identifikationsnummer.

ID Nachname Vorname Geburtsdatum Käufe
0001 Mustermann Max 01.04.1999 Piwik PRO Hoodie schwarz XL

Um diese Liste zu anonymisieren, entfernen Sie Vor- und Nachname sowie das Geburtsdatum. Die Identifikationsnummer und die getätigten Käufe bleiben übrig.

ID Käufe
0001 Piwik PRO Hoodie schwarz XL

So enthält Ihre Liste keine personenbezogenen Daten mehr und gilt als anonymisiert.

Pseudonymisierung

Laut § 3 Abs. 6a BDSG ist Pseudonymisierung:

„Das Ersetzen des Namens und anderer Identifikationsmerkmale durch ein Kennzeichen zu dem Zweck, die Bestimmung des Betroffenen auszuschließen oder wesentlich zu erschweren.“

An unserem oben genannten Beispiel zur Anonymisierungen können wir auch die Pseudonymisierung erklären. Dazu ziehen wir erneut alle nicht personenbezogenen Daten aus der Ausgangstabelle:

ID Käufe
0001 Piwik PRO Hoodie schwarz XL

Für die Pseudonymisierung erstellen wir eine zweite Tabelle, die die gleichen eindeutigen Identifikationsnummern enthält. Die aus der vollständigen Tabelle entfernten Daten – Vorname, Nachname und Geburtsdatum – werden dann den IDs zugeordnet.

ID Nachname Vorname Geburtsdatum
0001 Mustermann Max 01.04.1999

Die zweite Tabelle enthält natürlich personenbezogene Daten, die der Indentifikationsnummer der ersten Tabelle zugeordnet werden können. Um die Sicherheit dieser Daten zu garantieren, muss sie verschlüsselt werden, sodass der Zugriff auf die Liste beschränkt werden kann.

Pseudonymisierung hat in der DSGVO nicht den gleichen Stellenwert wie Anonymisierung. Schließlich gibt es eine Referenztabelle mit eindeutigen Daten. Die Vorteile von Pseudonymisierung, wie z. B. ein geringerer technischer und organisatorischer Schutzbedarf der Daten, machen die Methode dennoch attraktiv.

Das Thema wird etwas näher auf Datenschutzbeauftragter-Info beleuchtet:
Pseudonymisierung: was ist das eigentlich?

Der große Vorteil von Anonymisierung

Unternehmen, die Anonymisierung einsetzen, profitieren von einem sehr wichtigen Fakt:
Anonymisierte Daten gelten nicht als personenbezogene Daten.

Die DSGVO sagt in Erwägungsgrund 26:

“Die Grundsätze des Datenschutzes sollten daher nicht für anonyme Informationen gelten, d. h. für Informationen, die sich nicht auf eine identifizierte oder identifizierbare natürliche Person beziehen, oder personenbezogene Daten, die in einer Weise anonymisiert worden sind, dass die betroffene Person nicht oder nicht mehr identifiziert werden kann.”

Das bedeutet, dass anonymisierte Daten keine zusätzlichen Sicherheitsmaßnahmen benötigen. Deshalb ist unter anderem:

  • eine Einwilligung zur Datenverarbeitung nicht erforderlich
  • der Verarbeitungszweck nicht festgelegt (Sie können die Daten also anders verwenden und sogar verkaufen)
  • eine unbegrenzt lange Speicherung der Daten möglich
  • die Speicherung an beliebigen Standorten erlaubt

Sie können diese Daten also so verwenden, wie Sie möchten, und müssen sich an keine DSGVO-Vorgaben halten.

Das heißt auch: Wenn Sie Ihre bisher gesammelten Daten anonymisieren, unterliegen diese nicht mehr den Anforderungen der DSGVO und müssen somit auch nicht konform dazu gespeichert worden sein. Mit anderen Worten:

Sie können Ihre Bestandsdaten behalten, wenn Sie sie anonymisieren.

Darüber hinaus zeigen Sie durch eine Anonymisierungs-Strategie, dass Sie das Thema Datenschutz ernst nehmen und die Privatsphäre Ihrer Besucher respektieren. Datenschutzexperten schätzen die Methode ein als:

  • Teil einer Strategie, die dem Privacy by Design-Konzept folgt
  • Teil einer Strategie zur Risiko-Minimierung
  • Teil einer Strategie zur Daten-Minimierung
  • Möglichkeit, Datenschutzverstöße zu minimieren

Zum Thema Privacy by Design haben wir einen lesenswerten Blogartikel für Sie:
Privacy by Design & Privacy by Default – Was Sie in Zeiten der DSGVO wissen sollten

Welche Daten sollten anonymisiert werden?

Die Liste der Daten, die anonymisiert werden sollten, um der DSGVO zu entsprechen, ist recht lang. Alle Informationen, die als personenbezogen gelten, fallen darunter. Neben dem Offensichtlichen wie Namen, Adressen etc. unterliegen beispielsweise auch diese Daten den Bestimmungen:

  • Login-Daten
  • Geräte-IDs
  • IP-Adressen
  • Cookies
  • Browsertyp
  • Gerätetyp
  • Informationen zu installierten Plug-Ins
  • Einstellungen zur Sprache und Zeitzone
  • technische Details wie Bildschirmgröße, Systemschriften etc.

Einen detaillierten Überblick über das Thema personenbezogene Daten und die entsprechenden Klassifizierungen finden Sie hier:
Was sind PII, Non-PII und personenbezogene Daten?

Die beliebtesten Methoden zur Anonymisierung

Besonders zu beachten beim Thema Anonymisierung ist, dass die Methode gemäß Artikel 29 Working Party Opinion 05/2014 nicht als einzige Maßnahme für den Datenschutz angesehen werden sollte.

Stattdessen sind eine Vielzahl an unterschiedlichen Methoden erforderlich, um die Datensätze permanent zu schützen. Der gesamte Datenschutz-Prozess benötigt viele Ressourcen und Aufwände.

Die Liste der Ansätze, die als ausreichend sicher gelten können, ist übersichtlich. Unter den von der Article 29 Working Party akzeptierten Anonymisierungs-Methoden finden sich zwei besonders verbreitete Ansätze:
Randomization und Generalization.

Techniken, die unter die beiden Ansätze fallen, sind die Folgenden:

Randomization:

Noise Addition: personenbezogene Identifikatoren werden unpräzise ausgedrückt (eine Person wird z. B. aufgrund eines Merkmals, z.B. ihrer Größe einer Gruppe zugeordnet, allerdings erfolgt dies sehr unspezifisch. Ist die Person 1,70 m groß, wird sie der Gruppe 1,64 m bis 1,78 m zugeteilt. Diese Zuordnung folgt keiner bestimmten Regel, die Einteilung ist sehr zufällig generiert).

Substitution/Permutation: Personenbezogene Identifikatoren werden in einer Tabelle auf dem Zufallsprinzip basierend durcheinander gebracht oder mit zufälligen Werten ersetzt (z. B. eine PLZ mit einem Wort).

Differential Privacy: Personenbezogene Identifikatoren eines Datensatzes werden mit einem anonymisierten Datensatz verglichen, der von einer Third Party gehostet wird. Per Instruktion soll Noise erzeugt werden und ein annehmbares Maß an Datenverlust wird definiert.

Generalisierung

Aggregation/K-Anonymity: Personenbezogene Identifikatoren werden zu einer definierten Obergruppe bzw. einem Spektrum generalisiert (z. B. das Alter 30 wird zu 20-35).

L-Diversity: Personenbezogene Identifikatoren werden erst generalisiert, anschließend wird dafür gesorgt, dass jedes Attribut einer Klasse mindestens einmal vorhanden ist (z. B. Eigenschaften werden personenbezogenen Identifikatoren zugewiesen und jede Eigenschaft taucht zu mindestens einer festgelegten Anzahl im Datensatz auf).

Umfassender Guide für DSGVO-konformes Consent Management

Lesen Sie, wie Sie Einwilligungen gesetzeskonform sammeln, wie das Consent-Formular aussehen kann u.v.m.

Zum kostenlosen Guide

Häufige Gefahren der Anonymisierung

Jede dieser beschriebenen Methoden zur Anonymisierung hat ihre Fallstricke, vor allem im Test gegen die drei gängigsten Risiken, die beim Anonymisieren Ihrer Daten auftreten können. Diese Risiken sind:

  • Singling Out
    Die Möglichkeit, einige oder alle Verweise zu isolieren, die eine Person in Ihrer Datenbank identifizieren können
  • Verknüpfbarkeit
    Die Möglichkeit, mindestens zwei Informationen zu einer individuellen Person oder einer Gruppe betroffener Personen aus einer oder unterschiedlichen Datenbanken miteinander verknüpfen zu können
  • Rückschlüsse
    Die Möglichkeit, den Wert eines Attributs auf Grundlage anderer Attribute mit hoher Wahrscheinlichkeit erschließen zu können

In folgender Tabelle sehen Sie die Vor- und Nachteile jeder Methode:

Ist Singling Out möglich? Ist Verknüpfbarkeit möglich? Sind Rückschlüsse möglich?
Noise Addition Ja Nicht zwingend Nicht zwingend
Substitution Ja Ja Nicht zwingend
Aggregation/K-Anonymity Nein Ja Ja
L-diversity Nein Ja Nicht zwingend
Differential privacy Nicht zwingend Nicht zwingend Nicht zwingend

Quelle: Article 29 Working Party, Opinion 05/2014 on Anonymisation Techniques

Aufgrund dieser Risiken ist es äußerst ratsam, nicht nur eine sondern eine Kombination aus mehreren Anonymisierungs-Methoden zu verwenden, um die Wiederherstellung einzelner Datensätze zu vermeiden. Doch auch eine Kombination verschiedener Anonymisierungs-Strategien bietet keine absolute Sicherheit.

Es gibt eine Vielzahl an unterschiedlichen öffentlichen Datenbanken, die zur übergreifenden Referenz genutzt werden können. Jeder Datensatz mit einer gewissen Informationsmenge hat deshalb gute Chancen, Übereinstimmungen in einem dieser öffentlichen Datensätze aufzuweisen.

Latanya Sweeney demonstrierte im Jahr 2000, dass 87% der amerikanischen Bevölkerung eindeutig identifiziert werden kann ausschließlich anhand einer Kombination aus PLZ, Geschlecht und Geburtsdatum.

Aus diesem Grund ist es wichtig, trotz Anonymisierung dem Daten-Minimierungs-Prinzip zu folgen und nur das erforderliche Mindestmaß an Daten zu speichern. So senken Sie die Möglichkeit einer Verknüpfbarkeit mit öffentlichen Datenbanken.

Nachteile von Anonymisierung

Trotz der – unter der DSGVO – großen Vorteile, wie z. B., dass anonymisierte Daten nicht mehr als personenbezogene Daten gelten und somit keine Einwilligung erfordern, gibt es auch Nachteile. Diese schauen wir uns auch an.

Zwar gelten anonymisierten Daten nicht als personenbezogen, doch neue Daten sind zunächst nicht anonym, wenn Sie sie erheben. Erst nach der Speicherung können sie anonymisiert werden, deshalb ist eine Einwilligung für diese Daten erforderlich.

Wollen Sie tatsächlich den Einwilligungs-Prozess umgehen und deshalb ausschließlich anonyme Daten speichern, so bleiben Ihnen lediglich die Pageviews. Aber individuelle Pageviews gelten schon, genau wie individuelle Besucher, deren Standorte etc., als personenbezogen und sind ohne Einwilligung von der Speicherung auszuschließen. Auch Cookies und IP-Adressen dürfen Sie nicht ohne Nachfrage speichern.

Auf diese wertvollen und nützlichen Daten sollten Sie nicht verzichten.

Consent Management automatisieren, Content personalisieren

Der Prozess, Einwilligungen zur Datenverarbeitung einzuholen, lässt sich automatisieren. Viele Anbieter von Marketing-Softwarelösungen bieten sogenannte Consent Management Tools an. Damit kommen Sie Ihrem Ziel, Daten DSGVO-konform zu speichern, einen großen Schritt näher und müssen nicht darauf verzichten, Insights zu den Besuchern Ihrer Website oder App zu erhalten.

Statistiken zeigen außerdem deutlich, dass Personalisierung eine zunehmend erfolgreiche Marketing-Strategie ist. Zudem sind Kunden dazu bereit, ihre Einwilligung zur Datenspeicherung zu geben, wenn sie davon profitieren.

  • 79% aller Kunden sagen, dass sie mit höherer Wahrscheinlichkeit Angebote annehmen, die so personalisiert wurden, dass sie vorherige Interaktionen mit der Marke widerspiegeln.
    (Marketo)
  • Mehr als die Hälfte der Kunden (57%) sind damit einverstanden, persönliche Daten auf einer Website anzugeben, solange es zu ihrem Vorteil ist und die Informationen verantwortungsbewusst verwendet werden.
    (Janrain)

Deshalb kann es sich in manchen Fällen lohnen, alte Datensätze zu opfern und den zusätzlichen Aufwand in Kauf zu nehmen, um Kunden ein hohes Level an Sicherheit und Transparenz zu bieten. Es unterstützt diese dabei, Ihnen ihre persönlichen Daten mit einem guten Gefühl zu überlassen. Sie können die Informationen dann dazu nutzen, Ihren Kunden personalisierten Content und eine tolle User-Experience zu bieten.

First Party-Daten sind die wertvollsten Informationen, die ein Marketer haben kann. Wir haben deshalb bereits viel darüber berichtet. Hier finden Sie einen Auszug weiterführender Artikel:

Sie erhalten diese Daten – datenschutzkonform – durch die Einwilligung Ihrer Nutzer zur Verarbeitung und Speicherung. Das sollten Sie sich an dieser Stelle bewusst machen.

Fazit

Anonymisierung hebt Ihre Daten klar auf ein hohes Sicherheitsniveau und befreit Sie von DSGVO-Verpflichtungen. Auf der anderen Seite nimmt sie Ihnen auch die Möglichkeit, von den großen Vorteilen personenbezogener Daten zu profitieren. Mit Roh-Daten können Sie Segmente erstellen, individuelle Kampagnen starten und Content für Ihre Besucher personalisieren.

Es lohnt sich daher – unabhängig davon, für welche Variante Sie sich entscheiden – einen Blick auf weitere Sicherheitsmaßnahmen und Aspekte zu werfen, die zu DSGVO-Compliance führen.

Beispielsweise speichern Sie Ihre Daten mit Piwik PRO Analytics an einem Ort Ihrer Wahl. Nutzen Sie Ihre eigene Infrastruktur, eine Third Party-Datenbank oder eine sichere Cloud mit Servern in der EU und/oder den USA. Darüber hinaus können Sie SAML, Authentifizierung und Audit Log nutzen und von professionellem Support profitieren.

Piwik PRO Consent Manager

Sammeln, Verarbeiten und Speichern Sie Einwilligungen und Anfragen betroffener Personen DSGVO-konform.

Kostenlosen Demo-Termin vereinbaren

Tags für diesen Artikel

Autor:

Sebastian Voigt, Content Marketer DACH

Sebastian ist begeisterter Sprachwissenschaftler. Germanistik und Anglistik haben es ihm angetan. Für Piwik PRO schlägt er die Brücke zwischen englischsprachigem und deutschsprachigem Content. Ihn fordert es heraus, komplizierte Sachverhalte so zu erklären, dass sie garantiert im Gedächtnis bleiben.

Mehr Artikel von diesem Autor

Autor:

Karolina Lubowicka, Content Marketer

Karolina ist Content Marketer und Social Media Managerin bei Piwik PRO. Sie hat viel Erfahrung als Copy Writer gesammelt und versteht es komplexe Zusammenhänge verständlich zu beschreiben. Besonders intensiv beschäftigt sie sich derzeit mit Datenschutz & DSGVO.

Mehr Artikel von diesem Autor

Share