Nur gute Daten liefern auch gute Ergebnisse

Datenqualität sicherstellen

von - 01.04.2020
Die Kriterien für gute Daten und die Folgen schlechter Daten deuten es an: Eine hohe Datenqualität - Data Quality - in den wachsenden Datenmengen sicherzustellen, bedeutet einen großen Aufwand. Hier kommen Anwendungen ins Spiel, die den Unternehmen einen Großteil der Arbeit abnehmen. Sie automatisieren Data Quality mit Hilfe intelligenter, zum Teil selbstlernender Algorithmen und halten die riesigen Datenmengen dauerhaft auf einem hohen Qualitätslevel. Ohne solche Data-Quality-Tools wird ein Data Lake schnell zu einem „Data Swamp“, einem trüben Datensumpf.
Die Arbeit an der Qualität der Daten lässt sich in drei grundlegende Schritte unterteilen, in deren Verlauf die Data-Quality-Tools eine ganze Reihe kritischer Funktionen wie Profiling, Parsing, Standardisierung, Bereinigung, Abgleich, Anreicherung und Überwachung der Daten durchzuführen haben:
Data Profiling: Die Datenanalyse erkennt Fehler, Widersprüche und Inkonsistenzen. Daraus werden weitere Schritte abgeleitet, um die Qualität des Datenbestands zu verbessern.
Data Cleaning: Die Datenbereinigung beseitigt die beim Data Profiling erkannten Fehler. Durch den hohen Automatisierungsgrad ist der Aufwand überschaubar. Die Datenbereinigung entfernt auch Dubletten, korrigiert Daten­typen und ver­vollständigt lückenhafte Datensätze.
Data Monitoring: Überprüft kontinuierlich die Qualität der vorliegenden Daten. Tritt eine Änderung darin ein, schlägt das Monitoring Alarm und es wird ein weiterer Analyse-Bereinigungs-Zyklus durchgeführt.

Data-Quality-Markt

Der Markt für Datenqualitäts-Software spiegelt das steigende Interesse der Unternehmen an der Thematik wider. Den Umsatz beziffert das Marktforschungs- und Beratungsunternehmen Gartner auf 1,61 Milliarden Dollar, das Wachstum für die nächsten fünf Jahre auf durchschnittlich 8,1 Prozent jährlich.
Knapp die Hälfte dieses schnell wachsenden Marktes entfällt auf drei große, etablierte Anbieter: Informatica, SAP und Syncsort. Der Rest verteilt sich auf Konzerne wie IBM und Oracle, aber auch auf kleinere Anbieter wie Innovative Systems, Ataccama und Information Builders. Die kleineren Hersteller sind oft gezwungen, sich Nischen zu suchen. Gleichzeitig schafft die Unzufriedenheit der Kunden mit den hohen Preisen der größeren Anbieter, wenig flexiblen Lizenzmodellen, unzureichenden Services sowie langen Bereitstellungszeiten Chancen für innovative kleinere Anbieter und Start-ups.
In der Ausrichtung der Programme beobachtet Gartner eine Verlagerung weg von Spezialwerkzeugen hin zu breiteren Funktionspaletten inklusive Datenmanagement und Information Governance. Als Folge überschneidet sich der Markt für Datenqualitäts-Tools mit den Märkten für Datenintegra­tions-Tools und Master Data Management (MDM). Den Analysten zufolge erwarten die Anwender eine umfassende Integration und Interoperabilität dieser Produkte, aber keine Konvergenz.
Verwandte Themen