Was ist Data-Sampling und warum sollten Sie es unbedingt vermeiden?

Veröffentlicht: Oktober 3, 2017 Update: März 20, 2019 Autor , Kategorie Analytics, Best Practices, How Tos & Use Cases

Data-Sampling ist einer der Pain-Points in der Welt der Web Analytics.

Falls Sie Ihr Business ernsthaft vorantreiben wollen, dann wissen Sie, wie wichtig datengesteuerte Entscheidungen sind. Sie brauchen solide Zahlen und zuverlässige Einblicke. Das ist der Grund, warum Stichproben schlichtweg nicht gut genug sind und Sie sogar in die Irre führen könnten.

In diesem Artikel erfahren Sie, wie Sie Data-Sampling vermeiden können und sichergehen, dass Ihre Reports immer komplette Daten liefern.

Was ist Data-Sampling?

Sampling oder auch die Datenauswahl, ist eine geläufige Statistikmethode, die beispielsweise bei Meinungs- oder politischen Umfragen zur Anwendung kommt. Wenn ein Forscher z. B. die beliebteste Art des Pendelns zur Arbeit in den USA ermitteln möchte, braucht er nicht mit jedem einzelnen amerikanischen Staatsbürger zu sprechen. Stattdessen können sie eine repräsentative Gruppe von 1000 Personen auswählen mit der Hoffnung, dass dies genug ist, um präzise Ergebnisse erzielen zu können.

Sampling funktioniert in Web Analytics auf eine sehr ähnliche Weise. Nur eine Teilmenge Ihrer Traffic-Daten wird ausgewählt, analysiert und genutzt, um das Gesamtergebnis zu schätzen. Können Sie jedoch wirklich sicher sein, dass Ihre Software eine repräsentative Menge Ihres Traffics auswählen wird? Unglücklicherweise starten die meisten Web Analytics-Tools automatisch mit der Stichprobenentnahme, sobald Sie eine bestimmte Grenze von Aktionen erreicht haben, die auf Ihrer Website getrackt wurden.

100 % Datenbesitz, Kontrolle & Sicherheit

Steigen Sie ein ins Data Driven Marketing und testen Sie Piwik PRO Analytics

Kostenlose Demo vereinbaren

Nachteile von Data-Sampling

Wie bereits erwähnt, können Reports durch Data-Sampling deutlich weniger präzise sein. Um sich klar zu machen, welche Unterschiede existieren, sollte man das Ganze selbst testen. Haben Sie jemals versucht, Reports zu vergleichen, die auf gesampelten Traffic und komplettem Traffic basieren? Das können Sie, indem Sie Piwik PRO-Reports mit gesampelten Google-Analytics-Reports vergleichen (sofern die Zahl der Sitzungen die Obergrenze an Aktionen erreicht hat).

Es ist hilfreich, sich die Diskrepanzen der Reports anzusehen und auf Basis dessen zu entscheiden, ob Unterschiede in den Reports ernsthafte Folgen für Ihre Ergebnisse haben. Selbst wenn die Diskrepanz bei weniger als 10 % liegt, was nicht schlecht wäre, bedeutet dies nicht, dass sich der Wert nicht ändern und weiter abweichen kann. Unternehmen Sie daher die richtigen Schritte, um in Zukunft dauerhaft vollständige und einwandfreie Reports zu erhalten. Beachten Sie, dass eine Diskrepanz von 5 % zwischen den verschiedenen Tools vertretbar wäre und von zahlreichen Faktoren abhängt.

In Tools wie Google Analytics sind Ihre Daten aggregiert und werden Ihnen als Zusammenstellung von Zufallsdaten geliefert. Das bedeutet, dass Sie nicht sicher sein können, ob Ihre Reports den Gesamt-Traffic und die bedeutenden Trends darstellen oder ob die ausgewählte Zusammenstellung den eigentlichen Sinn verfehlt. Wenn Sie eine beträchtliche Summe an Geld und Zeit in die Analyse Ihrer Reports investieren, sollten sie präzise sein. Außerdem bestimmen Sie auf Grundlage dieser Informationen die Richtung und die nächsten Schritte in Ihrer Unternehmensstrategie.

Stellen Sie sicher, dass Ihr Analytics-Tool solide Daten liefert und versuchen Sie Data-Sampling immer zu vermeiden. Andererseits könnten Ihnen entscheidende Informationen fehlen.

Piwik PRO vs. Google Analytics - Der ultimative Vergleich

Was sind die Vorteile, Nachteile, Gemeinsamkeiten und Unterschiede? Wir liefern Ihnen Antworten und einen vollständigen Überblick.

Zum Whitepaper Piwik PRO vs. Google Analytics

Data-Sampling in Google Analytics

Google Analytics ist das wohl bekannteste Analytics-Tool. Unglücklicherweise begegnen zahlreiche Nutzer Schwierigkeiten, die durch Data-Sampling verursacht werden, selbst wenn ihr Traffic nicht allzu umfangreich ist. Data-Sampling tritt automatisch ein, wenn die monatliche Grenze von 500.000 Sitzungen (Standard der freien Version von Google Analytics) oder 25 Millionen (Google Analytics Premium) erreicht worden sind. Die Premium-Version kostet 150.000$ pro Jahr, was verglichen mit anderen kostenpflichtigen Lösungen sehr viel ist. Und die schlechte Nachricht ist, dass sogar diese Investition das Problem des Data-Samplings nicht lösen dürfte.

Dass Sie ein Problem mit Daten-Sampling haben, erkennen Sie an dem gelben Balken oben rechts auf Ihrem Report mit der Aussage “Der Report basiert auf x-Besuchen (x % der Besuche)”.

Falls Sie Reports erhalten, die auf 100 % der Sitzungen beruhen, betrifft Sie dies nicht. Je kleiner der Daten-Anteil der Stichprobe an Ihren Gesamtaktionen ist, desto größer ist das Problem, dem Sie gegenüberstehen. Falls Sie feststellen, dass Ihre Probe geringer ausfällt als 10 % der Gesamtaktionen, können Sie sicher sein, dass diese Reports unbrauchbar sind. Sie wären vielleicht in der Lage, einige Schwankungen in Ihren Statistiken zu beobachten, aber das wäre es auch schon. Data-Sampling konterkarieren alle detaillierten Reports, Ihre Metriken weichen zu sehr ab (sogar bis zu 80 %) und die Zahlen haben mit der Realität nichts gemein.

Google Analytics liefert ungesampelte Daten, wenn es um Besuche und Seitenaufrufe geht. Aber wenn es um die Analyse detaillierter Metriken wie E-Commerce-Reports geht, dürften Sie einen Mangel an Kompatibilität bemerken. Ohne vollständige Daten können Sie diese Art von Informationen nicht richtig lesen und interpretieren.

Sampelt Piwik PRO meine Daten?

Standardmäßig sampelt Piwik PRO Ihre Daten nicht. Einer der größten Vorteile von Piwik PRO gegenüber anderen Analytics-Tools ist es, dass Sie jederzeit auf ungesampelte, vollständige Daten zurückgreifen können. Und mehr noch: Falls Sie sich für die self-hosted-Version von Piwik PRO entscheiden, ist die einzige Datengrenze die Kapazität Ihres Servers. Falls Sie sich dafür entscheiden, der Piwik Cloud zu vertrauen, liegt die Grenze bei 500 Millionen Aktionen pro Monat. Diese Anzahl an Aktionen wird nur von einigen wenigen Websites erreicht und auch für diesen Fall gibt es spezielle Pläne, die für Websites aller Formen und Größen geeignet sind.

Gehen Sie mit uns den nächsten Schritt im Data-Driven Marketing

Gerne zeigen wir Ihnen in einer persönlichen Demo die Piwik PRO Marketing Suite: Analytics, Tag Manager, Personalisierung & Customer Data Platform in einer Software vereint - DSGVO ready.

Kostenlosen Demo-Termin vereinbaren

Autor:

Saskia Wollenberg, Content Marketing Manager DACH

Sie jongliert tagtäglich mit Texten, Bildern und anderen Medienformaten. Sie ist verantwortlich für das gesamte Content-Management von Piwik PRO in Deutschland.

Mehr Artikel von diesem Autor

Autor:

Karolina Gawron, Content Marketer

Content Managerin bei Piwik PRO.

Mehr Artikel von diesem Autor
 Ein Vergleich der 5 führenden Web-Analytics-Anbieter

Share