Auf dem richtigen Weg zu guten Daten
Qualität als Herausforderung
von Klaus Manhart - 06.03.2019
Für gut strukturierte Daten kann mit den vorgestellten Möglichkeiten ein hohe Datenqualität gewährleistet werden. Anders sieht es etwa bei Textdaten aus Social-Media-Einträgen aus. Solche unstrukturierten Daten werden im Allgemeinen für die Sentiment-Analyse genutzt. Sie versucht beispielsweise, Einstellungen und Stimmungen zu Produkten oder Unternehmen herauszufinden. Aber im Social-Media-Umfeld haben die Daten nicht ansatzweise die Qualität wie in einem gepflegten Data Warehouse. Die Informationen, die aus Facebook, Twitter und Co. kommen, sind nicht qualitätsgesichert, die Identität der Blogger ist nicht nachvollziehbar und eine Produktkritik kann von Kunden, aber auch von der Konkurrenz kommen. Schon eine einfache Sentiment-Analyse ist daher nicht trivial, denn in Social Media wird nicht so geschrieben wie in E-Mails, außerdem werden Zeichen wie Smileys verwendet.
Bei unstrukturierten Daten sollte man sich genau überlegen, welche Datenqualität man braucht und wie viel Aufwand man hineinstecken will. Meistens ist bei Textdaten gar keine so hohe Datenqualität notwendig wie im Data Warehouse. „Wenn ich von der nur generell an meinem Unternehmen interessierten Zielgruppe erfahren will, was sie über mein Produkt denkt, ist die maximale Textqualität ziemlich irrelevant“, sagt Harald Gröger, Daten- und Analytics-Spezialist bei IBM. „Ob 78 oder 82 Prozent negativ über mein Produkt sprechen, macht für die Geschäftsentscheidung keinen großen Unterschied.“
Dennoch sollte dem Benutzer eine Information gegeben werden, in welcher Qualität die Daten vorliegen. Besonders im Big-Data-Umfeld ist es mitunter wichtig, die Qualität der Information klar zu kennzeichnen. Dies kann beispielsweise in einem dreistufigen Ampelsystem erfolgen. Grün für qualitätsgeprüfte, hochwertige Daten, Gelb für Daten fragwürdiger Qualität und Rot für nicht geprüfte Daten.
Stammt eine Tabelle aus einem Data Warehouse und ist qualitätsbereinigt, dann stimmen die Daten alle und bekommen das Signal: Grün. Die Social-Media-Analyse hingegen gibt die Stimmung wieder, was Menschen über ein Produkt des Unternehmens sagen, ist von einer geringeren Datenqualität und bekommt die Farbe Gelb oder Rot.
Fazit
Für die softwarebasierte Sicherstellung von Datenqualität gibt es mehrere Optionen. Vieles lässt sich mit klassischen Tools im ETL-Umfeld erledigen. Der ETL-Prozess (Extract, Transform, Load) übernimmt die Bereinigung und Transformation der Daten und stellt sie im Data Warehouse für weitergehende Analysen bereit. Daneben sind auch Spezial-Werkzeuge verfügbar. Zum Beispiel dient Software für Data Profiling zur Standortbestimmung und Aufwandsabschätzung und überprüft Datenbanken und Tabellen auf fehlerhafte Werte. Die eigentliche Bereinigung der Unternehmensdaten übernimmt sogenannte Data-Cleansing-Software. Sie standardisiert und bereinigt Daten. Eine der Hauptaufgaben ist die Identifizierung und Beseitigung von Dubletten. Viele Data-Quality-Werkzeuge bieten auch beide Funktionen in einem.