Analytics

Datenqualität

By 9. November 2022 No Comments

Wir leben in einer Zeit in der unglaublich viele Daten produziert werden. Die jährlich produzierten Daten sollen bis 2025 auf 175 Zettabyte steigen, während es 2018 noch 33 Zettabyte waren. Zur Einordnung, ein Zettabyte sind 1000 Exabytes oder eine Milliarde Terrabytes.

Durch diese Daten erhalten Unternehmen eine riesige Chance, denn sie müssen Entscheide nicht mehr instinktiv oder aus dem Bauch raus fällen, sondern können sich auf Fakten stützen. Daten über Handlungen und Präferenzen der Kundschaft können in strategische und operative Entscheidungen integriert werden. Die Leistungsfähigkeit von Daten können zu einem entscheidenden Wettbewerbsfaktor werden, wie der Erfolg von Amazon, Google oder Facebook zeigt.

Entscheidungen die auf Daten basieren können aber nur so gut sein, wie die Daten selbst. Eine schlechte Datenqualität kann zu diversen Problemen führen. Neben Fehlentscheidungen und höheren operativen Kosten, können in stark regulierten Geschäftsfeldern sogar rechtliche Konsequenzen drohen. Auch allfällige Reputationsschäden können Konsequenzen von schlechter Datenqualität sein, die ein Unternehmen nachhaltig schwächen können.

Zur Messung der Datenqualität hilft der Einsatz von diversen Kennzahlen, die den prozentualen Anteil der schlechten Datenqualität aufzeigt. Nachfolgend werden einige aufgezählt:

Completeness

Diese Kennzahl misst den Anteil an fehlenden Daten innerhalb eines Datensatzes. Hierbei gibt es schlimmere oder weniger schlimmere Lücken, die abhängig vom Umfeld und von der Branche des Unternehmens sind. Wichtig ist, dass keine essenziellen Daten fehlen und falls doch, dass diese so schnell wie möglich nachgetragen werden.

Validity

Validity misst, wie viele Daten nicht im vordefinierten Format eingegeben sind. So können beispielsweise Vor- und Nachnamen vertauscht sein, das Geburtsdatum nicht im richtigen Format oder das Adressland in der falschen Sprache eingegeben sein. Mit entsprechenden technischen Massnahmen kann diesem Problem vorgebeugt werden (Formularfelder, die nur ein gewisses Format akzeptieren).

Timeliness

Hierbei wird gemessen, wie aktuell die Daten sind. Wenn Information über die Kundschaft aus dem Jahr 2008 vorhanden ist und wir nun bereits das Jahr 2022 schreiben, sind die Daten wahrscheinlich nicht mehr aktuell. Die Aktualität der Daten kann einen starken Einfluss auf die Datenqualität haben – positiv und negativ.

Uniqueness

Es gibt Daten die einmalig sein müssen. Ein gutes Beispiel können hierbei Kundenprofile sein. Sie sollten einmalig sein, um eine Mehrfachbearbeitung zu vermeiden und um keine Informationen zu verlieren. Mit einmaligen Daten können einzelne Kunden gezielter angesprochen und entsprechende Massnahmen besser ausgewertet werden. Dies bildet die Grundpfeiler für langfristigen Erfolg.

Accuracy

Die Genauigkeit kann schwierig sein. Daten können komplett, valide, zeitnah und einmalig sein, aber sie sind vielleicht nicht genau. Eine 100% Genauigkeit ist das Ziel für alle Datenverantwortlichen und wenn es erreicht wird, muss dies unbedingt gehalten werden.

Consistency

Die letzte Kennzahl in dieser Aufzählung misst, ob die Daten konstant gleich sind über alle Systeme des Unternehmens. Verschiedene Daten in verschiedenen Systemen kann zu inkonsistenten Reports oder zu schlechtem Kundenservice führen.

Die Datenqualität in einem Unternehmen sollte regelmässig überprüft und wenn nötig, Massnahmen ergriffen werden. Eine gute Datenqualität führt zu:

  • Höherem Return on Investment von Marketingaktivitäten
  • Einhaltung von gesetzliche Rahmenbedingungen
  • Besseren faktenbasierten Entscheidungen
  • Verlässlicheren Analysen
  • Tieferen Kosten und Aufwand, da sie nicht immer verbessert werden muss

Quellen:
https://de.statista.com/statistik/daten/studie/267974/umfrage/prognose-zum-weltweit-generierten-datenvolumen/

https://www.alation.com/blog/what-is-data-quality-why-is-it-important/

https://www.ataccama.com/blog/what-is-data-quality-why-is-it-important