Was ist Data Sampling und wie funktioniert es?

Geschrieben von Paweł Socha, Aleksandra Szczepanska

Veröffentlicht März 02, 2023

Datensampling

Data Sampling (dt. Datensampling) ist ein Standardverfahren, das Sie in mehreren Analytics-Plattformen finden. Es hat seine Vorteile und ist in bestimmten Situationen nützlich. Potenzielle Probleme, wie ungenaue Berichte, kommen vor, wenn Sie es automatisch anwenden. Und dabei nicht an die Konsequenzen der Arbeit mit einer Stichprobe denken.

In diesem Artikel zeigen wir Ihnen, wie das Data Sampling funktioniert. Daneben helfen wir Ihnen zu verstehen, wann es gut funktioniert und wann nicht.

Was ist Data Sampling in Analytics?

Data Sampling ist eine geläufige Statistik-Methode, die beispielsweise bei Meinungs- oder politischen Umfragen zum Einsatz kommt. Möchte ein Forscher die beliebteste Art des Pendelns zur Arbeit in den USA ermitteln, benötigt er nicht mit jedem einzelnen amerikanischen Staatsbürger zu sprechen. Stattdessen wählt er eine repräsentative Gruppe von 1000 Personen aus und hofft, dass dies genug ist, um präzise Ergebnisse zu erzielen.

Sampling funktioniert in Web Analytics auf eine ähnliche Weise. Nur eine Teilmenge Ihrer Traffic-Daten wird ausgewählt, analysiert und genutzt, um das Gesamtergebnis zu schätzen.

Was sind die Methoden zum Data Sampling?

Stichproben kommen in allen Formen und Größen. Es gibt nämlich verschiedene Methoden der Datenerhebung. Wir unterteilen sie in probabilistische Stichprobenverfahren (engl. probability sampling) und nichtprobabilistische Stichprobenverfahren (engl. non-probability sampling).

  • Bei einer probabilistischen Stichprobe wählen Sie Stichproben auf der Grundlage verschiedener statistischer Methoden aus. Sie bestimmen Zufallszahlen, die den Punkten im Datensatz entsprechen. Dabei hat jedes Element Ihres Datensatzes die gleiche Chance, ausgewählt zu werden.

Dies ist die beste Option, um eine repräsentative Stichprobe zu erstellen.

  • Bei einer nicht probabilistischen Stichprobe bestimmen Sie als Analyst eine Datenstichprobe auf der Grundlage Ihres subjektiven Urteils. Das bedeutet, dass nicht alle Punkte der Population eine Chance haben, ausgewählt zu werden.

In dieser Methode senkt die Wahrscheinlichkeit, dass die Stichprobe die größere Population abbildet.

Probleme mit gesampelten Daten

Data Sampling wurde entwickelt, um die Berichterstattung in der Webanalyse zu beschleunigen. Aber je nach den Umständen und der angewendeten Methode verursacht es Probleme.

Zu den potenziellen Problemen mit den gesampelten Daten gehören:

  • Nicht repräsentative Stichproben: Einige Tools, wie Google Analytics, sind hinsichtlich der Datenerfassung eingeschränkt. Sie nehmen ab einem bestimmten Punkt Stichproben, unabhängig vom Traffic-Volumen. Das Resultat: Je größer die Website, desto ungenauer die Berichte. Beispiel: Ihre Website generiert 60 Millionen Hits pro Monat und 60.000 Besuche pro Tag. Die Stichprobe kann sich auf 10 Millionen Hits pro Monat und 10.000 Besuche pro Tag oder weniger beschränken. Dadurch erhalten Sie kein vernünftiges Bild Ihrer Daten. Und je mehr Ihre Website wächst, desto verzerrter werden Ihre Berichte.
  • Probleme mit Leistung und Genauigkeit:
  1. Wenn Sie mit größeren Stichproben arbeiten, erstellen Sie Ihre Berichte langsamer. Ein größerer Stichprobenumfang nimmt zwar mehr Zeit in Anspruch, liefert aber genauere Ergebnisse.
  2. Eine kleine Stichprobengröße beschleunigt die Berichterstattung, allerdings zulasten der Genauigkeit. Wenn Sie die Stichprobe einschränken, sind Sie möglicherweise nicht in der Lage, tatsächliche Muster zu erkennen. So verpassen Sie Chancen, die Sie sonst in einem Gesamtbild bemerken würden.
  • Stichprobenfehler: Stichproben enthalten manchmal Fehler. Diese können durch große Schwankungen in einer bestimmten Metrik und einem bestimmten Zeitraum entstehen. Oder auch durch ein insgesamt niedriges Volumen einer bestimmten Metrik im Vergleich zu den Besuchen. Wenn etwa die Anzahl der Transaktionen auf Ihrer Website gegenüber den Gesamtbesuchen extrem niedrig ist, weichen die Stichproben möglicherweise erheblich ab.

Allerdings wird eine Diskrepanz zwischen den verschiedenen Analytics-Plattformen immer bestehen. Einigen Experten zufolge sind 5 % ein akzeptabler Wert.

Wenn Stichproben von Webdaten wesentlich ungenaue Berichten liefern, verpassen Sie wichtige Einblicke in Ihre Daten. Dies wirkt sich wiederum direkt auf die Geschäftseffizienz.

Data Sampling in Google Analytics

Google Analytics-Plattformen wie Universal Analytics, Google Analytics 360 (GA 360) und das neue Google Analytics 4 (GA4) verwenden probabilistische Stichproben. Das bedeutet, dass sie Ihre Daten aggregieren und als Zufallsdatensatz liefern. Mit dem Launch von Google Analytics 4 (GA4) haben sich ein paar Dinge geändert, aber das Konzept bleibt dasselbe.

Google Analytics erstellt Stichproben für Ihre Berichte, basierend auf der Anzahl der Sitzungen. Jede Version von Google Analytics hat ein anderes Sitzungslimit. Standardberichte werden nicht gesampelt. Wenn Sie aber Ad-hoc-Abfragen wie sekundäre Dimensionen oder Segmente anwenden, werden Ihre Daten nach Erreichen der folgenden Schwellenwerte gesampelt:

  • In Universal Analytics, sobald Ihre Ad-hoc-Berichte 500.000 Sitzungen auf Property-Ebene für den gewählten Datumsbereich erreichen.
  • Da Google Analytics 360 einen höheren Schwellenwert hat, werden Ihre Ad-hoc-Berichte gesampelt, sobald sie 1.000.000 Sitzungen für den gewählten Datumsbereich erreichen.

Data Sampling in Google Analytics 4

Ähnlich wie in Universal Analytics und GA 360, tritt Data Sampling in GA4 bei standarmäßigen und erweiterten Analysen auf, wenn die Daten 10 Millionen Hits überschreiten (oder 1 Milliarde im Fall von GA4 360). Eine erweiterte Analyse geschieht, wenn Sie einen Bericht zur Analyse von Trichtern, Pfaden, Kohorten, Segmentüberschneidungen usw. erstellen.

Hinweis: Beim Data Sampling sind Ihre Daten nicht ganz genau und repräsentativ für das Nutzerverhalten. Google zeigt Informationen darüber an, wie sehr ein bestimmter Bericht auf den verfügbaren Daten basiert. Wenn der angezeigte Prozentsatz unter 70–80 % liegt, sollten Sie den Daten, die Sie erhalten, nicht vollständig vertrauen. 

Data Sampling: Gut oder schlecht?

Wenn Sie präzise Daten analysieren, wie die Conversion-Rate Ihrer Website oder die Gesamteinnahmen, kann das Data Sampling Probleme bereiten. Es ist besser, mit einem vollständigen Datensatz zu arbeiten, wenn dadurch Ihre Berichte nicht langsamer erstellt werden.

Aber es wäre unfair, an gesampelten Daten achtlos vorbeizugehen. Manchmal lässt sich Data Sampling nicht vermeiden. Wenn ein Bericht eine große Anzahl von Ereignissen oder Sitzungen umfasst, kann er sehr langsam gefertigt werden. Oder er überschreitet das Zeitlimit und wird überhaupt nicht erstellt.

Es gibt viele Faktoren, die die Performance Ihrer Berichte beeinflussen:

  • Die Dimension-Kardinalität. Die Kardinalität bezieht sich auf die Anzahl der eindeutigen Werte, die eine Dimension enthalten kann. Zum Beispiel hat die Dimension „Mobile“ in Google Analytics zwei Werte – „Ja“ oder „Nein“. Das bedeutet, dass ihre Kardinalität „zwei“ ist.
  • Riesige Datenmenge. Das Datenvolumen, das Sie für Ihren Bericht verwenden, beeinträchtigt dessen Geschwindigkeit. Dazu führen z. B. ein hohes Sitzungsvolumen oder ein sehr breiter Zeitbereich, der mehrere Jahre an Daten umfasst.
  • Anzahl der angewandten Filter. Sie können Filter anwenden, um den Datenverkehr von bestimmten IP-Adressen auszuschließen, Daten von bestimmten Subdomänen oder Verzeichnissen einzubeziehen oder dynamische Seiten-URLs in lesbare Textstrings umzuwandeln. Viele Filter schaden der Leistung.

Mehr dazu, wie Data Sampling Ihre Berichte beeinträchtigt: Rohdaten und gesampelte Daten: Wie Sie genaue Daten erhalten

Sampelt Piwik PRO Ihre Daten?

In der Standardeinstellung nimmt Piwik PRO keine Stichproben von Ihren Daten. Mit Piwik PRO erhalten Sie immer nicht gesampelte Daten. Es sei denn, Sie entscheiden, dass eine Stichprobe erforderlich ist.

In Piwik PRO dient das Sampling dazu, Ihre Berichte zu verbessern. Die Stichprobe wird aus dem gesamten Datensatz gezogen, d. h. je größeres Datenvolumen, desto genauere Ergebnisse.

Wenn Sie also Probleme beim Laden von Berichten erfahren, aktivieren Sie das Data Sampling und wählen die Stichprobengröße. Die Plattform ruft die Daten anhand der Besucher-ID ab, sodass der Kontext einer Sitzung nicht verloren geht. Auf diese Weise verwenden Sie weiterhin Funnel-Berichte dort, wo Sie die Pfade von Nutzern in Sitzungen analysieren. Denn präzise Berichte erfordern vollständige Pfade.

Piwik PRO entfernt keine Daten und erfasst sie auch dann, wenn die Traffic-Grenzen überschritten werden. Und Sie können sie auch nach dem Upgrade auf den kostenpflichtigen Plan nutzen.

Fazit

Gesampelte Daten reichen eher nicht für eine genaue Datenanalyse aus. Dennoch können Stichproben besonders bei sehr großen Datensätzen helfen, die als Ganzes schwer zu analysieren sind.

Stellen Sie immer sicher, dass Ihre Analytics-Plattform solide Daten liefert. Und verlassen Sie sich auf Stichproben nur dann, wenn die Arbeit mit einem vollständigen Datensatz die Ladezeit von Berichten beeinträchtigt. Andernfalls entgehen Ihnen möglicherweise Informationen, die für Ihr Unternehmen entscheidend sein könnten.

Lesen Sie auch: