Datenmanagement

Auf dem richtigen Weg zu guten Daten

von - 06.03.2019
Data Management
Foto: Bild: Shutterstock / phipatbig
Korrekte und saubere Daten sind heute die Basis für den Erfolg. Für die Software-basierte Sicherstellung gibt es verschiedene Tools aus dem ETL-Umfeld. Kommen diese nicht weiter, bietet sich eine Speziallösung an.
Verlorener Gewinn durch schlechte Datenqualität
(Quelle: Omikron, Navesink Consulting Group )
Im Zuge von Big Data und Künstlicher Intelligenz gewinnt die Qualität von Daten neue Aufmerksamkeit. Im Bereich Big Data und Analytics ist die Datenqualität von zentraler Bedeutung, weil Führungskräfte auf Basis von Analysen Entscheidungen treffen. Die Entscheidungen können nach dem Prinzip „Garbage in - Garbage out“ aber nur so gut sein, wie es die Daten sind, auf die sie sich stützen.
Sind die Daten bei Big-Data-Analysen schlecht, stimmen die Ergebnisse nicht. Entscheidungen werden dann möglicherweise falsch getroffen. „Datenqualität und Entscheidungsqualität stehen in einem direkten Verhältnis“, betont Michaela Tiedemann, CMO beim Münchner Analytics- und Data-Science-Berater Alexander Thamm.
Im KI-Umfeld sind korrekte Daten mindestens ebenso wichtig. Hier ist die Datenqualität entscheidend für das Training der Algorithmen. Und auch hier gilt: Generell ist ein KI-System nur so gut, wie die Daten, auf denen es basiert. Wird mit schlechten Daten trainiert, stimmen die Modelle nicht. Das ist in der KI besonders tragisch, weil man anders als bei Analytics nicht herausfinden kann, auf welchen Datenelementen die Vorhersagen basieren, und falsche Daten kaum korrigieren kann.
Im Bankenbereich, wo KI bereits eingesetzt wird, macht man sich Sorgen um die Qualität von KI-basierten Entscheidungen: „Gerade vor dem Hintergrund des vermehrten Einzugs von KI machen ungenaue und ungeprüfte Daten Banken anfällig für falsche Schlussfolgerungen, die schließlich zu Fehlentscheidungen führen können“, erklärt Christian Altrock, Geschäftsführer beim Beratungsunternehmen Accenture und dort Leiter des Bereichs Banken. In anderen Branchen sind die Sorgen nicht weniger: Laut einer Forrester-Umfrage unter Finanz-, Supply-Chain- und Beschaffungsmanagern ist die größte Herausforderung bei der Einführung von KI die schlechte Qualität der Unternehmensdaten. Nahezu zwei Drittel der Befragten sagen, die schlechte Datenqualität mache es der KI unmöglich, genaue und informierte Entscheidungen zu treffen. Das untergrabe das Ziel, mit Investitionen in KI Gewinne zu erzielen.
Kriterien für die Datenqualität
Um die Datenqualität messbar zu machen, bedarf es objektiver Qualitätskriterien, die den Daten zugeordnet werden. Dabei haben sich die folgenden Kriterien in der Praxis etabliert.

Kriterium für
Datenqualität

Definition

Negativ-Beispiele für eine Adressdatenbank

Aktualität

Alle Datensätze müssen jeweils dem aktuellen Zustand der abgebildeten Realität entsprechen und dürfen nicht veraltet sein

In der Datenbank stehen veraltete Adressen

Eindeutigkeit

Jeder Datensatz muss eindeutig interpretierbar sein

Identische Datensätze unterscheiden sich in nur einem einzigen Merkmal

Einheitlichkeit

Die Informationen eines Datensatzes müssen einheitlich strukturiert sein

Ortsnamen werden unterschiedlich geschrieben wie Köln, Koeln, KÖLN

Genauigkeit

Die Daten müssen in der jeweils geforderten Exaktheit vorliegen (zum Beispiel Nachkommastellen)

Einkommen: 4.000 Euro statt 4.220 Euro

Konsistenz

Ein Datensatz darf in sich und zu anderen Datensätzen keine Widersprüche aufweisen

Geburtsdatum Fritz M.: 1. 1. 2000; Alter Fritz M.: 60 Jahre

Korrektheit und Fehlerfreiheit

Die Daten müssen mit der Realität übereinstimmen

Wohnort Fritz M.: München. Richtig ist: Berlin

Redundanzfreiheit

Innerhalb der Datensätze dürfen keine Dubletten vorkommen

Kunden und Kundennummern kommen mehrfach vor

Relevanz

Der Informationsgehalt von Datensätzen muss den jeweiligen Informationsbedarf erfüllen

In Abrechnungen eines bestimmten Quartals fließen Rechnungen eines anderen, nicht relevanten Quartals ein

Verständlichkeit

Die Datensätze müssen in ihrer Begrifflichkeit und Struktur mit den Vorstellungen der Fachbereiche übereinstimmen

Attributnamen sind mit unverständlichen Begriffen beschrieben

Vollständigkeit

Ein Datensatz muss alle notwendigen Attribute enthalten

Das Feld „Wohnort“ enthält keinen Wert für Fritz M.

Zuverlässigkeit

Die Entstehung der Daten muss nachvollziehbar sein

Die Datenquelle ist unbekannt

Quelle: BInEX - Business Information Excellence
Verwandte Themen