Auf dem richtigen Weg zu guten Daten

Qualität als Herausforderung

von - 06.03.2019
Wachstum durch gute Datenqualität
(Quelle: Omikron, Bostoner Aberdeen Group )
Für gut strukturierte Daten kann mit den vorgestellten Möglichkeiten ein hohe Datenqualität gewährleistet werden. Anders sieht es etwa bei Textdaten aus Social-Media-Einträgen aus. Solche unstrukturierten Daten werden im Allgemeinen für die Sentiment-Analyse genutzt. Sie versucht beispielsweise, Einstellungen und Stimmungen zu Produkten oder Unternehmen herauszufinden. Aber im Social-Media-Umfeld haben die Daten nicht ansatzweise die Qualität wie in einem gepflegten Data Warehouse. Die Informationen, die aus Facebook, Twitter und Co. kommen, sind nicht qualitätsgesichert, die Identität der Blogger ist nicht nachvollziehbar und eine Produktkritik kann von Kunden, aber auch von der Konkurrenz kommen. Schon eine einfache Sentiment-Analyse ist daher nicht trivial, denn in Social Media wird nicht so geschrieben wie in E-Mails, außerdem werden Zeichen wie Smileys verwendet.
Bei unstrukturierten Daten sollte man sich genau überlegen, welche Datenqualität man braucht und wie viel Aufwand man hineinstecken will. Meistens ist bei Textdaten gar keine so hohe Datenqualität notwendig wie im Data Ware­house. „Wenn ich von der nur generell an meinem Unternehmen interessierten Zielgruppe erfahren will, was sie über mein Produkt denkt, ist die maximale Textqualität ziemlich irrelevant“, sagt Harald Gröger, Daten- und Analytics-Spezialist bei IBM. „Ob 78 oder 82 Prozent negativ über mein Produkt sprechen, macht für die Geschäftsentscheidung keinen großen Unterschied.“
Dennoch sollte dem Benutzer eine Information gegeben werden, in welcher Qualität die Daten vorliegen. Besonders im Big-Data-Umfeld ist es mitunter wichtig, die Qualität der Information klar zu kennzeichnen. Dies kann beispielsweise in einem dreistufigen Ampelsystem erfolgen. Grün für qualitätsgeprüfte, hochwertige Daten, Gelb für Daten fragwürdiger Qualität und Rot für nicht geprüfte Daten.
Stammt eine Tabelle aus einem Data Warehouse und ist qualitätsbereinigt, dann stimmen die Daten alle und bekommen das Signal: Grün. Die Social-Media-Analyse hingegen gibt die Stimmung wieder, was Menschen über ein Produkt des Unternehmens sagen, ist von einer geringeren Datenqualität und bekommt die Farbe Gelb oder Rot.

Fazit

Für die softwarebasierte Sicherstellung von Datenqualität gibt es mehrere Optionen. Vieles lässt sich mit klassischen Tools im ETL-Umfeld erledigen. Der ETL-Prozess (Extract, Transform, Load) übernimmt die Bereinigung und Transformation der Daten und stellt sie im Data Warehouse für weitergehende Analysen bereit. Daneben sind auch Spezial-Werkzeuge verfügbar. Zum Beispiel dient Software für Data Profiling zur Standortbestimmung und Aufwandsabschätzung und überprüft Datenbanken und Tabellen auf fehlerhafte Werte. Die eigentliche Bereinigung der Unternehmens­daten übernimmt sogenannte Data-Cleansing-Software. Sie standardisiert und bereinigt Daten. Eine der Hauptaufgaben ist die Identifizierung und Beseitigung von Dubletten. Viele Data-Quality-Werkzeuge bieten auch beide Funktionen in einem.
Schlechte Datenqualität erkennen
Das Data-Quality-Unternehmen Omikron hat typische Er­eignisse zusammengestellt, die Hinweise liefern, dass mit Ihren Daten etwas nicht in Ordnung ist. Wenn Sie einen oder mehrere der folgenden Punkte beobachten, dann sollten Sie tätig werden:
  • Kontakte tauchen mehrmals im System auf
  • Ansprechpartner sind nicht mehr im Unternehmen
  • Kontaktaufnahme fällt schwer aufgrund veralteter Kontaktdaten
  • Hohe Rückläuferquote durch falsche Adressen
  • Kundenbeschwerden durch Mehrfachzustellung der Werbesendungen
  • Wenig Responses bei Marketing-Kampagnen
  • Unprofessionelle Briefanreden und unvollständige Adresszeilen
  • Cross- und Up-Selling-Möglichkeiten sind nicht ersichtlich
  • Geringe Benutzerakzeptanz der E-Business-Anwen­dungen und Mitarbeiterbeschwerden
  • Gesetzliche Vorgaben werden nicht eingehalten (Stichwort DSGVO)
  • Im Lager werden aufgrund von uneinheitlichen Bezeichnungen immer wieder doppelte Ersatzteile gefunden
  • Undurchsichtige Reportings: strategische Entschei­dungen werden auf unvollständigen und falschen Daten getroffen
Verwandte Themen