Auf dem richtigen Weg zu guten Daten

Wann sind Daten eigentlich gut?

von - 06.03.2019
Gartner Magic Quadrant for Data Quality Tools
„Magic Quadrant for Data Quality Tools“: Die Gartner-Analysten sehen die Anbieter Informatica, IBM, SAS und SAP derzeit vorn.
(Quelle: Gartner)
Datenqualität hat mehrere Dimensionen, die in der Praxis kaum alle abgedeckt werden können. Klar ist, dass Daten zunächst korrekt sein sollten: Falsche Werte, fehlende Werte oder Widersprüche müssen vermieden werden. Doch neben Fehlerfreiheit gehören auch Faktoren wie Objektivität, Aktualität und Vollständigkeit dazu.
Für viele Kriterien lassen sich konkrete Metriken festlegen. Die Vollständigkeit etwa kann über die Menge der eingetragenen Datensätze im Verhältnis zur Menge aller möglichen Datensätze definiert werden, erklärt Felix Naumann vom Hasso-Plattner-Institut der Uni Potsdam. Fehlen bei 100 möglichen Datensätzen 10, dann ist die Vollständigkeit 90 Prozent. Solche Metriken sind auch für andere Kriterien wie Aktualität oder Korrektheit festlegbar. Die Ergebnisse lassen sich auf Spalten, Tabellen und ganze Datensätze aggregieren, sodass Aussagen möglich sind wie „Die Aktualität aller Kundendaten beträgt 80 Prozent“. Immer und überall gültige, objektive Kriterien für gute und schlechte Daten und für alle Anwendungsfälle gibt es allerdings nicht. In der Praxis muss immer aus dem Verwendungskontext entschieden werden, welche Kriterien wichtig sind.

Datenerfassung mit Qualität

Bei der Einhaltung beziehungsweise Verbesserung der Datenqualität gilt grundsätzlich: Am wirkungsvollsten und nachhaltigsten bekämpft man Datenfehler bei ihrer Entstehung - also bei der manuellen Dateneingabe und der automatischen Datenerhebung. Diese Maßnahme nennt sich auch First-Time-Right-Prinzip.
Um von vornherein für klare Verhältnisse zu sorgen, sollte in Form von Metadaten ein Katalog von Eigenschaften definiert werden, die für alle Datenobjekte gelten. Beispielsweise sollte die Art und Weise, wie einzelne Felder in Datensätzen befüllt sein müssen, etwa Schreibweise oder Format, aus dem Regelwerk hervorgehen. Dieser Datenkatalog ist ein Mittel, um die Informationen später für eine Analyse zu identifizieren, und erfüllt zugleich den Zweck, die Vollständigkeit und Konsistenz der Daten sicherzustellen. Der gesamte Datenbestand lässt sich auf diese Weise einheitlich strukturieren und schützt vor Dubletten.
Entsprechend definierte Eingabemasken setzen die Regeln softwaretechnisch um. Moderne ERP- und Datenbank-Software unterstützt bei der Umsetzung. Datenbanksysteme bieten beispielsweise die Möglichkeit, Integritätsbedingungen zu formulieren. Sie erzwingen die Einhaltung bestimmter Formate - bei Datumsangaben etwa die Eingabe bestimmter Werte. Auch wird automatisch geprüft, ob beispielsweise die Kombination aus Postleitzahl und Ort stimmt.
Trotz aller Prüfmechanismen birgt die manuelle Datenerfassung allerdings immer noch ein gewisses Fehlerpotenzial. Wann immer möglich, sollten Daten deshalb automatisch ins System einfließen.
Verwandte Themen