Rohdaten und gesampelte Daten: Wie Sie genaue Daten erhalten

Geschrieben von Sebastian Synowiec

Veröffentlicht September 30, 2020

Autofahren ähnelt dem Ableiten von Entscheidungen aus Analysedaten. Sie analysieren jeden Aspekt Ihrer Umgebung. Sie berücksichtigen Ihre Geschwindigkeit, das Auto neben, vor und hinter Ihnen und Sie halten Ausschau für Fahrzeuge, die aus Seitenstraßen herausschießen, um einen Unfall zu vermeiden. Bei Bedarf erkennen Sie auch eine Ausfahrt, um den besten und schnellsten Weg ans Ziel zu finden.

Sobald Sie aber nur berücksichtigen, was vor Ihnen liegt und schneller fahren, verpassen Sie möglicherweise wichtige Ausfahrten oder geraten sogar in einen Autounfall. Es könnte fast gar nicht oder sogar sehr weh tun, aber eines ist klar: Ein unvollständiger Datensatz ist dafür verantwortlich.

Jeder Entscheidungsträger sucht nach Einsichten und Hintergrundwissen, um seine Organisation auf den richtigen Weg zu bringen. Daten von Ihrer Website, Verkaufszahlen und Kundenfeedback erzählen eine Geschichte, die jenen Weg aufzeigt, der Ihre Unternehmensziele erreicht.

Sie sollten dabei zwei generelle Kategorien in Data-Analytics im Auge behalten:

  • Zuerst haben wir Rohdaten, die für Genauigkeit stehen und Ihnen die Möglichkeit geben, sich mit den Details zu befassen. In der reinsten Form sind es Daten, die direkt aus der Quelle stammen und in jede Form, jedes Programm und jeden Report gebracht werden können, den Sie möchten oder brauchen.
  • Zweitens, haben wir gesampelte Daten. Eine Teilmenge Ihrer Traffic-Daten wird ausgewählt, hochgerechnet und anschließend analysiert, um die Gesamtmenge der verfügbaren Daten darzustellen. Dies hilft bei Performance-Problemen, bedeutet aber auch einen Genauigkeitsverlust.

In diesem Artikel gehen wir näher auf Rohdaten und gesampelte Daten ein. Wir werden Ihnen deren Vorteile, aber auch deren Nachteile aufzeigen, sodass Sie beruhigt auf die Straße schauen können und jede Nebenstraße erkennen.

Wie Analytics Anbieter mit Daten umgehen?

Analytics Plattformen bieten Ihrer Organisation Einsicht in wichtige Informationen: Einen Blick hinter die Kulissen des Verhaltens Ihrer Kunden. Diese Daten ermöglichen Ihnen, aufschlussreiche Informationen in Ihren Entscheidungsprozess mit einzubringen.

Sollten Sie nicht sicher sein, wie Sie mit Rohdaten und gesampelten Daten umgehen oder diese nutzen sollten, empfiehlt es sich die großen Analytics Anbieter zu beobachten. Schauen wir uns also an, wie Anbieter gesampelte Daten nutzen und ob sie Zugang zu Rohdaten gewähren.

Zugang zu RohdatenGesampelte Daten
Google Analyticsab 500K Sessions/Monat
Google Analytics 360via BigQueryab 100M Sessions/Monat
Adobe AnalyticsAußer in ausgewählten Audience Manager Reports
Matomo
CountlyAußer um Flow Reports zu visualisieren
Piwik PRONur auf Wunsch

Im Gegensatz zu Google Analytics, bieten alle Anbieter Zugang zu Rohdaten an. Gesampelte Daten sind jedoch nicht komplett abgeschrieben – sie zeigen spezifische Reports in einer kurzen Zeit an.

Countly verwendet gesampelte Daten um Flow Reports anzeigen zu können.

Sie erklären:

Aufgrund der hohen Verarbeitungsleistung visualisiert Flows die Daten mithilfe von Stichproben, wenn die Gesamtzahl der Sessions einen konfigurierbaren Schwellenwert überschreitet (Standard 2 Millionen). Die Stichprobe wird aus 5% aller Sitzungen generiert.” [Quelle]

Adobe Analytics sampelt Daten nicht in ihren Reports und frischt die Daten alle 45 – 120 Minuten auf. Aber die Plattform nutzt gesampelte Daten als Werkzeug, um die Performance von gewissen Audience Manager Reports zu verbessern.

Adobe sagt:

In einigen Audience Manager-Reports werden Ergebnisse basierend auf einem Stichprobensatz der Gesamtmenge der verfügbaren Daten angezeigt. Das Verhältnis der gesampelten Daten beträgt 1:54. Für Reports, die Stichprobendaten verwenden, bedeutet dies, dass Ihre Ergebnisse auf 1 Datensatz aus jedem Set von 54 Datensätzen basieren.

Diese Berichte verwenden gesampelte Daten, da sie eine enorme Menge an Rechenleistung benötigen, um Ergebnisse zu erzielen. Durch das Sampeln wird ein Gleichgewicht zwischen reduzierten Rechenanforderungen, Aufrechterhaltung der Systemleistung und Bereitstellung genauer Ergebnisse hergestellt.” [Quelle]

Erneut nutzt die Plattform Data Sampling, um die Performance der Darstellung gewisser Reports zu verbessern.

GA 360 hingegen, nutzt Data Sampling in allen Reports, um die Performance zu steigern. Trotzdem müssen Sie bis zu 4 Stunden für die Erstellung eines Reports warten und können dazu noch Stichproben erwarten. Dies bedeutet, dass Ihre Reports ungenau sein könnten, nachdem Sie 100M Hits pro Monat erreichen (in GA sind es 500K Hits pro Monat).

Dann haben Sie die Piwik PRO Analytics Suite. Sie bietet Ihnen Rohdaten für jeden Report, der in der Plattform generiert wird. Das beinhaltet auch User Flow Reports. Piwik PRO bietet gesampelte Daten nur auf Wunsch an. Darüber hinaus werden die Daten alle 30 Minuten aktualisiert, um Sie mit den neuesten Informationen zu versorgen.

Erweiterte Analyse mit Rohdaten

Im Großen und Ganzen bieten fünf aus sechs Plattformen den Zugang zu Rohdaten an. Analytics-Experten können auf den umfangreichen Informationspool zurückgreifen und bei Bedarf neue Erkenntnisse und Berichte erstellen. Analysten erhalten die Flexibilität, um Visualisierungen zu erstellen und Analysen durchzuführen, die andernfalls nicht möglich wären.

Daher ist es wichtig, dass Sie eine Plattform wählen, die Ihre Anforderungen unterstützt, mit Millionen von Datensätzen gut funktioniert und Ihnen die Flexibilität bietet, die Sie für die Durchführung erweiterter Analysen benötigen.

Sind Rohdaten teuere Daten?

Datenanalysten möchten mit einem vollständigen Datensatz arbeiten und jederzeit zu diesem zurückkehren. Damit können Sie neue Berichte erstellen. Sie möchten neue Filter und Visualisierungen anwenden und neue Erkenntnisse oder Sichtweisen gewinnen.

Unternehmen sind häufig mit Personal- und Zeitkosten konfrontiert, sobald sie in fortschrittliche Analysen eintauchen. Dies resultiert daraus, dass Sie mit Rohdaten mehr Zeit benötigen, um etwas brauchbares zu erhalten.

Sie benötigen mehr Fähigkeiten, um damit umzugehen, als mit Google Analytics, das nur über ein grafisches Reporting Interface verfügt. Sobald Sie mit großen Mengen von Rohdaten arbeiten, die über eine API geleitet werden, benötigen Sie wahrscheinlich auch Datenanalysten mit Programmierkenntnissen.

Wenn Sie aber den Kosten-Nutzen-Faktor auf lange Sicht betrachten, ist eine Investition in Analytics-Fähigkeiten für Rohdaten geschäftlich sinnvoll. Sie werden Ihnen helfen, nützliche Schlussfolgerungen aus Daten zu ziehen, die in einem Report möglicherweise nicht verwendet wurden und die niemand zu interpretieren oder richtig zu visualisieren wusste.

Vielleicht haben Sie noch nicht die Möglichkeit, in diese Funktionen zu investieren. Dann ist es gut, mit einem Partner zusammenzuarbeiten, der Ihnen beim Einrichten Ihrer Analyseplattform hilft, um das beste aus Ihren Daten zu holen. Ein guter Partner hilft beispielsweise bei der Festlegung von Zielen und gibt Feedback und Anleitungen dazu, wie Ihr Unternehmen Analysedaten sammelt und darauf reagiert.

Verschmelzen Sie Ihr komplettes Marketing-Stack mit Rohdaten

Die meisten Marketingabteilungen arbeiten schon mit eigenen Business Intelligence Plattformen, welche sie täglich verwenden. Da ist es selbstverständlich, dass sie diese weiterhin nutzen möchten. Also suchen sie nach einer Analytics Software, die sie unkompliziert in ihr vorhandenes Marketing Stack integrieren können. Manchmal erscheint dies nicht so einfach. Aber mit dem Zugang zu Rohdaten, wird eine ganz andere Geschichte geschrieben.

Brechen Sie Datensilos auf

Verbinden Sie Rohdaten aus unterschiedlichen Quellen, wie zum Beispiel CRMs, Transaktionsplattformen, Offline-Datenbanken und mehr. Indem Sie verschiedene Quellen zusammenschließen, erhalten Sie datengesteuerte Entscheidungen.

Sollten Sie wissen wollen wie Diskrepanzen zwischen Analytics-Plattformen entstehen, finden Sie im folgenden Artikel 13 mögliche Gründe dafür:

Einzelne Reports geben Ihnen nicht immer einen globalen Überblick über die Marketing-Performance über alle Kanäle hinweg. Wenn Sie aber Rohdaten aus verschiedenen Reports exportieren und mit anderen externen Daten kombinieren, erhalten Sie diese globale Ansicht. Beispielsweise können Sie die kanalübergreifende Attribution mithilfe von Rohdaten analysieren

Visualisieren Sie Ihre Daten, wie und wo Sie möchten

Alle bisher diskutierten Analyse-Plattformen verfügen über integrierte visuelle Reports, sowie Möglichkeiten zum Erstellen benutzerdefinierter Reports. Diese Reports-Engines bieten jedoch nicht immer alles, was Sie brauchen. Eine schnelle Möglichkeit, mehr Optionen zu erhalten, besteht darin, Rohdaten in Business Intelligence- und Visualisierungstools wie Tableau, Microsoft Power BI und Sisense zu exportieren.

Mit einer Business Intelligence-Software verbinden Sie nicht nur mehrere Datenquellen miteinander, sondern bereinigen, formen und modellieren Ihren Datensatz auch in den erforderlichen Report. Manchmal ist es der beste Weg, schnelle Entscheidungen auf der Grundlage großer Datenmengen zu treffen.

Eine einfache Tabelle erzählt eine großartige Geschichte und bietet Ihnen auch eine Richtung an. Manchmal zeigen Visualisierungsprogramme jedoch Muster, die sonst unsichtbar bleiben würden.

Angenommen, Sie sind eine Bank, die Kreditrisikofaktoren in einem Dashboard neben den Produkten ansehen möchte, die aktuelle Kunden in ihrem sicheren Mitgliederbereich suchen. Dies kann in einer Analyseplattform wie Google Analytics oder Piwik PRO nicht gut visualisiert werden. Trotzdem benötigen Sie jedoch die Web- und mobilen Analysedaten, um zu verstehen, wonach Kunden online suchen. In diesem Fall müssen Daten in eine BI-Plattform exportiert werden, auf der Datenbankabfragen, Berechnungen und geografische Visualisierungen kombiniert werden können, um ein vollständiges Bild zu erhalten.

Greifen Sie sofort auf Rohdaten zu

Mit Google Analytics 360 haben Sie beispielsweise Zugriff auf Rohdaten, müssen jedoch einige Umwege gehen, um diese zu erhalten. Sie müssen BigQuery, ein Google-Produkt, verwenden. Dadurch entstehen zusätzliche Kosten, die von Ihrem Datenvolumen abhängen. Für die kurzfristige Speicherung müssen Sie 0,02 USD pro GB und Monat zahlen. Diese Kosten werden für die Langzeitlagerung halbiert, aber in beiden Fällen erhöhen sich die Kosten der bereits teuren Plattform.

Mit Piwik PRO greifen Sie ohne zusätzliche Kosten auf Rohdaten zu. Diese sind ohne zusätzliche Plug-Ins oder Software verfügbar. Sie können auf historische Daten von vor bis zu 25 Monaten zugreifen.

Dies bedeutet, dass Sie die im Report verwendeten Rohdaten sofort herunterladen können, sobald dieser erstellt wurde. In Piwik PRO klicken Sie einfach neben dem Bericht auf „Exportieren“ und wählen das gewünschte Datenformat aus.

Exportieren Sie Rohdaten durch ein API

Manchmal reichen Rohdaten aus nur einem Report nicht aus. Möglicherweise möchten Sie Daten aus verschiedenen Abteilungen in Ihre Organisation integrieren. Um dies schnell und einfach zu tun, sind APIs (Application Programming Interface) praktisch.

Angenommen, Sie haben eine große Datenbank für Kunden- und Marketingdaten und möchten sie mit Ihren Analysedaten verknüpfen. Nutzen Sie dazu einfach eine API. Dies bedeutet, dass sich alle Daten, die Sie zum Erstellen Ihrer Reports benötigen, an einem Ort befinden – seien es Finanzdaten, Logistikdaten oder andere Datentypen.

Gesampelte Daten – eine fixe Lösung?

Bisher haben wir hauptsächlich über Rohdaten gesprochen. Schauen wir uns nun gesampelte Daten an.

Wenn wir die Kosten für das Sammeln und Analysieren von Rohdaten addieren, ist es sinnvoll, warum laut W3Techs.com 84,2% aller Websites, deren Tool zur Traffic-Analyse bekannt ist, Google Analytics verwenden. GA ist ein kostenloses Tool, um Daten über das Kundenverhalten abzurufen. Dabei übersehen Benutzer die Einschränkungen, einschließlich der gesampelten Daten und des fehlenden Zugriffs auf Rohdaten.

Google Analytics ist ein kostenloses Tool. Dies bedeutet jedoch nicht, dass es Sie nichts kostet. Lesen Sie unsere Blog-Beiträge über die Nachteile der beliebten Plattform:

Die Sampling- und Extrapolation-Prozesse sind kompliziert. Trotzdem möchten wir Ihnen den Prozess vereinfacht darstellen. Angenommen, Sie möchten die Conversion-Rate pro Kanal anzeigen und den Durchschnitt berechnen. Das Ergebnis zeigt an, ob Sie mehr Geld investieren und den Kanal weiter betreiben oder diese Investition stoppen.

Wie Sie in Abbildung A sehen können, haben wir 100 Zahlen zwischen 1 und 10 ausgewählt. Dann haben wir den Mittelwert berechnet. Wenn wir den gesamten Datensatz einbeziehen, erhalten wir einen Durchschnitt von 5,49. Wenn wir jedoch eine Stichprobe von 30% entnehmen, sehen wir eine schwankende Fehlerrate. Vier zufällig gezogene Proben liefern unterschiedliche Ergebnisse im Bereich von 5,23 bis 5,87. Wenn die Nutzenschwelle für einen Kanal 5,5 beträgt, treffen Sie jeweils eine andere Entscheidung, basierend auf der von Ihnen verwendeten Zufallsstichprobe. Sie entscheiden sich in der Tat zufällig.

Die meisten Google Analytics-Nutzer sind der Ansicht, dass die von der Plattform bereitgestellten Daten (die nach Erreichen von 500.000 Sitzungen pro Monat erfasst wurden) gut genug sind. Es beantwortet grundlegende Fragen ohne Probleme und zeigt zum Beispiel:

  • Funktionen, die häufig verwendet werden
  • Standorte, von denen Benutzer stammen
  • Geräte, die sie verwenden

Die gesampelten Daten beantworten einige dieser Fragen angemessen. Sie zeigen definitiv Trends und weisen Sie oft in die richtige Richtung. Angesichts der Tatsache, dass Google Analytics teilweise aufgrund seiner eingeschränkten Funktionen kostenlos ist, wären Stichprobendaten in einigen Situationen möglicherweise ein guter Kompromiss. Wann werden gesampelte Daten aber inakzeptabel?

Gesampelte Daten akzeptieren Fehlerraten

Die Zuverlässigkeit der Ergebnisse aus den Stichprobendaten hängt stark von der Auswahl der Stichprobe selbst ab. Darüber hinaus erweist sich die Größe des extrahierten Datensatzes als entscheidender Faktor für die Bestimmung der Fehlerrate, wie Sie in dieser von Adobe bereitgestellten Tabelle sehen können:

Tatsache ist, dass Statistiken einen Messfehler nicht ausschließen. Dieser wird sogar toleriert, wenn der Fehler klein gehalten wird, um den gesamten Datensatz so genau wie möglich wiederzugeben.

Sobald eine Teilmenge Ihrer Verkehrsdaten ausgewählt, extrapoliert und dann analysiert wird, um die Gesamtmenge der verfügbaren Daten darzustellen, wird ein Messfehler erzeugt. Die Fehlerrate hängt von der Größe und Qualität der entnommenen Probe ab. Sie können nicht sicher sein, ob die von Ihnen verwendete Analyseplattform eine repräsentative Datenmenge enthält oder nicht. Im Help Center von Adobe Analytics wird angegeben, dass Fehlerraten auftreten, wenn Datensätze:

  • „in einen Bericht nicht aufgenommen werden sollten, aber trotzdem hinzugefügt wurden.
  • in einen Bericht aufgenommen werden sollten, aber weggelassen wurden. “ [Quelle]

In Google Analytics ist es beispielsweise möglich, die Größe der Stichprobe festzulegen. Sie können zwischen höherer Präzision und kürzerer Reaktionszeit wählen. Aber ist das genug? Selbst wenn Sie eine Website ohne hohen Datenverkehr betreiben, ist die Wahrscheinlichkeit eines gesampelten Datensatzes relativ hoch. Insbesondere, wenn Sie detaillierte Reports erstellen, in denen Daten über einen langen Zeitraum angezeigt werden.

Natürlich gibt es Möglichkeiten, Daten Sampling in Google Analytics zu vermeiden. Sie können beispielsweise den Zeitraum verkürzen. Also ist auf Kosten der Flexibilität möglicherweise eine Analyse durchzuführen.

Fazit

Daten Sampling ist nicht unbedingt eine schlechte Methode, die es zu vermeiden gilt. Es ist ein Werkzeug, das in bestimmten Situationen verwendet werden kann und das Leistungsprobleme vermeidet. Daten Sampling kann, anstatt zu helfen, auch irreführend sein. Daher ist es wichtig zu verstehen, wann und wo es verwendet werden sollte.

Die meisten Anbieter sampeln den Großteil ihrer Berichte nicht. Sie wissen: Präzise Daten treffen präzise Entscheidungen. Rohdaten geben Ihnen tiefe Einblicke und liefern genaue Informationen. Es ist eine tragfähige Quelle für eine nachhaltige Zukunft Ihres Unternehmens.

Wir hoffen, wir haben den Weg für Ihre erweiterte Analyse-Reise frei gemacht. Wenn Sie Fragen zu Rohdaten oder Stichprobendaten oder zu Piwik PRO selbst haben, können Sie sich gerne an uns wenden.