Auf dem richtigen Weg zu guten Daten

Qualität als Herausforderung

von Klaus Manhart - 06.03.2019

(Quelle: Omikron, Bostoner Aberdeen Group )

Für gut strukturierte Daten kann mit den vorgestellten Möglichkeiten ein hohe Datenqualität gewährleistet werden. Anders sieht es etwa bei Textdaten aus Social-Media-Einträgen aus. Solche unstrukturierten Daten werden im Allgemeinen für die Sentiment-Analyse genutzt. Sie versucht beispielsweise, Einstellungen und Stimmungen zu Produkten oder Unternehmen herauszufinden. Aber im Social-Media-Umfeld haben die Daten nicht ansatzweise die Qualität wie in einem gepflegten Data Warehouse. Die Informationen, die aus Facebook, Twitter und Co. kommen, sind nicht qualitätsgesichert, die Identität der Blogger ist nicht nachvollziehbar und eine Produktkritik kann von Kunden, aber auch von der Konkurrenz kommen. Schon eine einfache Sentiment-Analyse ist daher nicht trivial, denn in Social Media wird nicht so geschrieben wie in E-Mails, außerdem werden Zeichen wie Smileys verwendet.

Bei unstrukturierten Daten sollte man sich genau überlegen, welche Datenqualität man braucht und wie viel Aufwand man hineinstecken will. Meistens ist bei Textdaten gar keine so hohe Datenqualität notwendig wie im Data Warehouse. „Wenn ich von der nur generell an meinem Unternehmen interessierten Zielgruppe erfahren will, was sie über mein Produkt denkt, ist die maximale Textqualität ziemlich irrelevant“, sagt Harald Gröger, Daten- und Analytics-Spezialist bei IBM. „Ob 78 oder 82 Prozent negativ über mein Produkt sprechen, macht für die Geschäftsentscheidung keinen großen Unterschied.“

Dennoch sollte dem Benutzer eine Information gegeben werden, in welcher Qualität die Daten vorliegen. Besonders im Big-Data-Umfeld ist es mitunter wichtig, die Qualität der Information klar zu kennzeichnen. Dies kann beispielsweise in einem dreistufigen Ampelsystem erfolgen. Grün für qualitätsgeprüfte, hochwertige Daten, Gelb für Daten fragwürdiger Qualität und Rot für nicht geprüfte Daten.

Stammt eine Tabelle aus einem Data Warehouse und ist qualitätsbereinigt, dann stimmen die Daten alle und bekommen das Signal: Grün. Die Social-Media-Analyse hingegen gibt die Stimmung wieder, was Menschen über ein Produkt des Unternehmens sagen, ist von einer geringeren Datenqualität und bekommt die Farbe Gelb oder Rot.

Fazit

Für die softwarebasierte Sicherstellung von Datenqualität gibt es mehrere Optionen. Vieles lässt sich mit klassischen Tools im ETL-Umfeld erledigen. Der ETL-Prozess (Extract, Transform, Load) übernimmt die Bereinigung und Transformation der Daten und stellt sie im Data Warehouse für weitergehende Analysen bereit. Daneben sind auch Spezial-Werkzeuge verfügbar. Zum Beispiel dient Software für Data Profiling zur Standortbestimmung und Aufwandsabschätzung und überprüft Datenbanken und Tabellen auf fehlerhafte Werte. Die eigentliche Bereinigung der Unternehmensdaten übernimmt sogenannte Data-Cleansing-Software. Sie standardisiert und bereinigt Daten. Eine der Hauptaufgaben ist die Identifizierung und Beseitigung von Dubletten. Viele Data-Quality-Werkzeuge bieten auch beide Funktionen in einem.

Schlechte Datenqualität erkennen

Das Data-Quality-Unternehmen Omikron hat typische Ereignisse zusammengestellt, die Hinweise liefern, dass mit Ihren Daten etwas nicht in Ordnung ist. Wenn Sie einen oder mehrere der folgenden Punkte beobachten, dann sollten Sie tätig werden:

Kontakte tauchen mehrmals im System auf

Ansprechpartner sind nicht mehr im Unternehmen

Kontaktaufnahme fällt schwer aufgrund veralteter Kontaktdaten

Hohe Rückläuferquote durch falsche Adressen

Kundenbeschwerden durch Mehrfachzustellung der Werbesendungen

Wenig Responses bei Marketing-Kampagnen

Unprofessionelle Briefanreden und unvollständige Adresszeilen

Cross- und Up-Selling-Möglichkeiten sind nicht ersichtlich

Geringe Benutzerakzeptanz der E-Business-Anwendungen und Mitarbeiterbeschwerden

Gesetzliche Vorgaben werden nicht eingehalten (Stichwort DSGVO)

Im Lager werden aufgrund von uneinheitlichen Bezeichnungen immer wieder doppelte Ersatzteile gefunden

Undurchsichtige Reportings: strategische Entscheidungen werden auf unvollständigen und falschen Daten getroffen

Seite

Auf dem richtigen Weg zu guten Daten

Qualität als Herausforderung

Fazit

Mehr zum Thema