Warum Datenqualität wichtig ist

Wir leben in einer Zeit in der unglaublich viele Daten produziert werden. Die jährlich produzierten Daten sollen bis 2025 auf 175 Zettabyte steigen, während es 2018 noch 33 Zettabyte waren. Zur Einordnung, ein Zettabyte sind 1000 Exabytes oder eine Milliarde Terrabytes.

Durch diese Daten erhalten Unternehmen eine riesige Chance, denn sie müssen Entscheide nicht mehr instinktiv oder aus dem Bauch raus fällen, sondern können sich auf Fakten stützen. Daten über Handlungen und Präferenzen der Kundschaft können in strategische und operative Entscheidungen integriert werden. Die Leistungsfähigkeit von Daten können zu einem entscheidenden Wettbewerbsfaktor werden, wie der Erfolg von Amazon, Google oder Facebook zeigt.

Entscheidungen die auf Daten basieren können aber nur so gut sein, wie die Daten selbst. Eine schlechte Datenqualität kann zu diversen Problemen führen. Neben Fehlentscheidungen und höheren operativen Kosten, können in stark regulierten Geschäftsfeldern sogar rechtliche Konsequenzen drohen. Auch allfällige Reputationsschäden können Konsequenzen von schlechter Datenqualität sein, die ein Unternehmen nachhaltig schwächen können.

Zur Messung der Datenqualität hilft der Einsatz von diversen Kennzahlen, die den prozentualen Anteil der schlechten Datenqualität aufzeigt. Nachfolgend werden einige aufgezählt:

Completeness

Diese Kennzahl misst den Anteil an fehlenden Daten innerhalb eines Datensatzes. Hierbei gibt es schlimmere oder weniger schlimmere Lücken, die abhängig vom Umfeld und von der Branche des Unternehmens sind. Wichtig ist, dass keine essenziellen Daten fehlen und falls doch, dass diese so schnell wie möglich nachgetragen werden. Für statistische Analysen bedeuten fehlende Daten ungenaue Analysen, die gar zu unbrauchbaren Resultaten führen können.

Validity

Validity misst, wie viele Daten nicht im vordefinierten Format eingegeben sind. So können beispielsweise gewisse Felder in Deutsch und andere in Englisch ausgefüllt sein oder das Datum im falschen Format sein. Mit entsprechenden technischen Massnahmen kann diesem Problem vorgebeugt werden (Formularfelder, die nur ein gewisses Format akzeptieren).

Timeliness

Hierbei wird gemessen, wie aktuell die Daten sind. Wenn Informationen über Kontaktdaten von Out-of-Home-Plakaten aus dem Jahr 2008 vorhanden sind und wir nun bereits das Jahr 2022 schreiben, sind die Daten wahrscheinlich nicht mehr aktuell. Die Aktualität der Daten kann einen starken Einfluss auf die Datenqualität haben – positiv und negativ.

Uniqueness

Es gibt Daten die einmalig sein müssen. Ein gutes Beispiel können hierbei Kundenprofile sein. Sie sollten einmalig sein, um eine Mehrfachbearbeitung zu vermeiden und um keine Informationen zu verlieren. Mit einmaligen Daten können einzelne Kunden gezielter angesprochen und entsprechende Massnahmen besser ausgewertet werden. Dies bildet die Grundpfeiler für langfristigen Erfolg.

Accuracy

Die Genauigkeit kann schwierig sein. Daten können komplett, valide, zeitnah und einmalig sein, aber sie sind vielleicht nicht genau. Eine 100% Genauigkeit ist das Ziel für alle Datenverantwortlichen und wenn es erreicht wird, muss dies unbedingt gehalten werden.

Consistency

Die letzte Kennzahl in dieser Aufzählung misst, ob die Daten konstant gleich sind über alle Systeme des Unternehmens. Verschiedene Daten in verschiedenen Systemen kann zu inkonsistenten Reports oder zu schlechtem Kundenservice führen.

Die Datenqualität in einem Unternehmen sollte regelmässig überprüft und wenn nötig, Massnahmen ergriffen werden. Eine gute Datenqualität führt zu:

Höherem Return on Investment von Marketingaktivitäten
Einhaltung von gesetzliche Rahmenbedingungen
Besseren faktenbasierten Entscheidungen
Verlässlicheren Analysen
Tieferen Kosten und Aufwand, da sie nicht immer verbessert werden muss

Media- & Kampagnendaten

Die Herausforderungen bei den Media- & Kampagnendaten liegt insbesondere darin, dass es sich hierbei um die unterschiedlichsten Datenquellen und -formen handelt und diese Daten bei verschiedenen Providern in unterschiedlichen Systemen liegen und oftmals manuell beschafft werden müssen

Für eine seriöse Analyse von Kampagnen bzw. eine entsprechende Analysetiefe ist es wichtig, mit sehr granularen Daten zu arbeiten, was die Komplexität zusätzlich erhöht.

Aus diesem Grund gehören bei Signifikant die Beschaffung und das Handling aller relevanter Daten für die Analyse zum Service dazu. Durch unsere standardisierten Prozesse können wir dies deutlich effizienter machen, als wenn die Unternehmen sich selbst darum kümmern.

Unseren Kunden sparen so Zeit und können sich darauf verlassen, dass die Analysen auf der bestmöglichen Datenqualität aufbauen. Wo es für den Kunden interessant ist, mit den Daten auch noch eigene Analysen zu machen, stellen wir diese entsprechend zur Verfügung – entweder periodisch als File oder laufend durch Zugriff auf den entsprechenden Datenpool.

Quellen:
https://de.statista.com/statistik/daten/studie/267974/umfrage/prognose-zum-weltweit-generierten-datenvolumen/

https://www.alation.com/blog/what-is-data-quality-why-is-it-important/

https://www.ataccama.com/blog/what-is-data-quality-why-is-it-important