Datenqualität

Die vorliegende Datenqualität der Stammdaten ist  entscheidend für das richtige funktionieren eines ERP Systems. Nicht umsonst hat sich der Begriff SISO (Sh** In, Sh** Out)  etabliert.

Wir bieten Ihnen mehrere Möglichkeiten die Datenqualität Ihre Stammdaten (oder aller anderen Daten) zu analysieren.

Wir erstellen einen Datenqualitätsindex, der Ihnen zeigt, in welchen Bereichen Sie nachbessern müssen, um das richtige funktionieren Ihres ERP System zu gewährleisten. 

Für das funktionieren des Stammdatenmanagements, ist es notwendig zu wissen, welcher Anteil der zu pflegenden Daten fehlerhaft ist oder fehlt.

Wir können große Datenmengen untersuchen und feststellen, wie gut bzw. schlecht Ihre Datenqualität ist.

Anbei folgt ein Beispiel, bei dem  Lieferanten Stammdaten untersucht werden.

Die Ergebnisse sind in einer graphischen Übersicht (Kombinationsmatrix) zusammengefasst.

Bitte klicken Sie auf die Bilder für eine höhere Auflösung:

Durch die Auswertung werden schnell Bereich identifiziert, bei denen die Datenpflege bzw. der Datenqualitätsindex zu gering ist um einen einwandfreien Ablauf innerhalb eines ERP Systems zu gewährleisten.

Anbei folgen noch weitere Möglichkeiten, wie wir Ihre Daten analysieren können, um fehlende oder falsche Dateneinträge zu finden:

Im oben gezeigten Beispiel sind nur 93.8 % der Lieferbedingungen (Delivery) gepflegt und nur 58.53 % der Zahlungsbedingungen (Payment)!  

Insgesamt Sind im analysierten Datensatz 61,9 % der Daten gepflegt bzw. vorhanden (Present) und 38.1 % der Daten fehlen (Missing) bzw. sind ungepflegt. 

Hier erkennt man schnell, dass man im Bereich der Lieferanten Stammdaten nachbessern muss. 

Eine weitere Möglichkeit ist das visuell Darstellen von den fehlenden Werten, aber auch ein gleichzeitiges darstellen der Datentypen:

 

Für die nächsten Beispiele wechseln wir zum tao Datensatz. Details zum Datensatz finden Sie hier: http://www.pmel.noaa.gov/tao/

Es folgt eine visuelle Auswertungen des Datensatzes:

Bei dieser Graphik handelt es sich um ein Matrixplot. Alle roten Blöcke sind fehlende Daten. In den Graustufen befinden sich weitere interessante Details. Je dunkler die Farben, desto höher sind die Werte der Zahlen. Je mehr grau oder schwarze Balken es gibt, desto mehr Daten in den jeweiligen Kategorien gibt es. 

Die nächste Graphik ist ein Marginplot. Hier lassen sich Abhängig zwischen verschiedenen Variablen abbilden. Das es aber in diesem Artikel um Datenqualität geht, sind hier auch Informationen eingebaut, welche es erlauben die fehlenden Werte zu erkennen.

In der Graphik wird die Lufttemperatur in Abhängig von der Oberflächentemperatur des Meeres abgebildet. Alle roten Punkte und Boxplots welche sich am Rand der Graphik befinden, sind fehlende Werte. Die fehlenden Werte werden extra abgebildet und können im Detail analysiert werden.

Als letztes folgt eine graphisch interessante Abbildung:

Es handelt sich bei dieser Graphik um eine
parallele Koordinatendarstellung welche die fehlenden Daten rot markiert.