Auf dem richtigen Weg zu guten Daten

Im Gespräch mit Harald Gröger, Daten- und Analytics-Spezialist bei IBM

von - 06.03.2019
Harald Gröger
Harald Gröger: Daten- und Analytics-Spezialist bei IBM
(Quelle: IBM )
Wie stelle ich als Unternehmen fest, wie gut oder schlecht meine Daten sind? Und wann lohnt sich überhaupt eine Verbesserung der Datenqualität? com! professional spricht darüber mit Harald Gröger, Daten- und Analytics-Spezialist bei IBM Deutschland.
com! professional: Herr Gröger, im Zuge von Big Data und KI erlebt das Thema Datenqualität wieder einen Aufwind. Welche Konsequenzen haben schlechte Daten in diesem Umfeld?
Harald Gröger: Im Big Data-Umfeld werden die Daten oft in großen Data Lakes gesammelt. Stimmt dort die Datenqualität nicht, hat man keinen Datensee, sondern einen Datensumpf. Und der verursacht hohe Kosten. Schließlich kann man nicht tun, was man tun möchte - Analysen fahren und belastbare Prognosen gewinnen.
com! professional: Worin sehen Sie das grundsätzliche Problem bei den Datensammlungen, wie sie heute üblich sind?
Gröger: Das grundsätzliche Problem ist „Garbage in - Garbage out“: Wenn der Input schlecht ist, dann kommt auch ein schlechtes Ergebnis heraus. Leider weiß man über die Qualität des Inputs oft gar nichts. Unternehmen sammeln ja in der Regel alle Daten, die sie bekommen. Weil den größten Teil der Datensammlung noch nie jemand angeschaut hat, kann man nichts über die Datenqualität aussagen.
com! professional: Man braucht doch aber Informationen über die Qualität der Daten. Wie wird die Datenqualität in der Praxis festgestellt?
Gröger: Zunächst muss definiert werden, welche Anforderungen bestehen. Um die notwendige Datenqualität zu definieren, würde ich als Datenverantwortlicher sowohl mit der IT als auch mit den Fachabteilungen sprechen - was schon per se schwierig ist.
Im nächsten Schritt sollten Sie sich dann fragen: Welche Qualität in Prozent brauchen Sie für die konkrete Anwendung aus Sicht der IT und speziell auch des Fachbereichs. Dann sollten Sie sich überlegen, wie viel Aufwand Sie hineinstecken möchten, um die Datenqualität zu verbessern.
com! professional: Sollten Unternehmen nicht generell eine 100-prozentige Datenqualität für alle Daten anstreben?
Gröger: Aus meiner Sicht ist eine 100-prozentige Datenqualität für alle Daten im Data Lake nicht sinnvoll. Der Aufwand würde den Nutzen nicht rechtfertigen. Wenn ich mich bemühe, die Datenqualität auch für Teilbereiche zu erhöhen, die ich gar nicht verwerte, dann ist das nicht adäquat und lohnt nicht. Andererseits sollte im Data Warehouse natürlich schon eine hundertprozentige Datenqualität angestrebt werden.
com! professional: In welchen Bereichen lohnt sich denn eine Verbesserung der Datenqualität?
Gröger: Dafür müssen Sie immer den Anwendungsfall betrachten. Wenn ich an meine Kunden Infobriefe per Post schicke und ein Teil der Adressen ist falsch, lohnt sich eine Datenbereinigung - allein schon wegen der hohen Porto- und Papierkosten. Verschicke ich die Infobriefe per E-Mail, ist
das weniger schlimm, weil die Rückläufe praktisch nichts kosten.
Oder nehmen Sie eine Social-Media-Analyse. Wenn ich mit meinen zehn Top-Kunden eine Analyse mache, muss ich viel in die Textqualität hineinstecken, um genau zu erkennen, was sie über mein Unternehmen gesagt haben. Wenn ich aber von der nur generell an meinem Unternehmen interessierten Zielgruppe erfahren will, was sie über mein Produkt denken, ist die maximale Textqualität ziemlich irrelevant.
com! professional: Sollten aus der Perspektive der Datenqualität Silos verhindert werden und Daten zentral gespeichert werden?
Gröger: Das wäre optimal, entspricht aber nicht der Praxis. In den meisten Unternehmen liegen Daten mehrfach vor - auch wenn sie nur lokal gespeichert werden. Kundenadressen werden gern redundant abgelegt. Da gibt es einen Kundenstamm, eine Auftragsbearbeitung, eine Rechnungsstelle - und alle speichern dieselben Daten ab. Um das zu minimieren, sollten Sie wissen, wo Daten gespeichert sind. Bei einem notwendigen Update ändern Sie die Daten dann wenigstens nur an einer Stelle und übertragen die Änderungen automatisiert auf die redundanten Orte.
com! professional: Wie kann denn nun konkret die Datenqualität festgestellt und verbessert werden?
Gröger: Menschen sind bei der Feststellung der Datenqualität wegen der großen Datenmengen überfordert. Der Grad der Datenqualität wird heute deshalb weitgehend automatisiert untersucht. Solche Tools können beispielsweise Ausreißer finden.
Ein simples Beispiel ist ein Baumarkt, der Besenstiele verkauft. Besenstiele haben normalerweise eine Länge zwischen 1,50 und 1,80 Metern. Steht nun einer mit 25 Metern in der Datenbank, sollte ein Werkzeug diesen Ausreißer identifizieren.
com! professional: Die maschinelle Analyse ist aber nur ein Teil des ganzen Prozesses. Wie ist grundsätzlich die Vorgehensweise bei der Qualitätsanalyse und Datenbereinigung?
Gröger: Grundsätzlich müssen Data Scientists in den großen Datentöpfen, die ihnen zur Verfügung stehen, erst einmal die Quelldaten finden, die für sie relevant sind. Von großem Vorteil ist dabei ein Datenkatalog, aus dem hervorgeht, wo welche Daten liegen. Der Data Scientist „schneidet“ sich dann das Stück an Daten he­raus, das er braucht. Für diese Teilbereiche von Daten, die sich die Data Scientists angucken, sollte mit einem Werkzeug eine automatische Datenqualitätsberechnung durchgeführt werden. Dann muss sich der Datenwissenschaftler - eventuell in Absprache mit dem Fachbereich - überlegen, ob die Qualität gut genug ist oder nicht. Wenn nicht, muss eine Bereinigung durchgeführt werden.
com! professional: Kommen wir noch zu einigen Spezialbereichen. Im IoT-Umfeld fallen sehr viele Daten an. Ist die Datenqualität hier besser, weil die Daten von Sensoren und Maschinen kommen?
Gröger: Tendenziell schon, aber nicht grundsätzlich. In den Windrädern der Windradparks sind beispielsweise häufig mehrere Sensoren verbaut. Diese messen Parameter wie die Windgeschwindigkeit und die Temperatur oft mehrfach und liefern gelegentlich widersprüchliche Messdaten. Einfach deshalb, weil sie vielleicht längere Zeit nicht mehr kalibriert wurden. Wenn zwei Sensoren 5 Grad melden und ein anderer 8 Grad, was machen Sie dann? Ex­tra rausfahren und nachgucken ist aufwendig und teuer. Den Mittelwert bilden wäre eine Option, eine andere, sich für die Mehrheit der Messwerte zu entscheiden, also 5 Grad.
com! professional: Können Sie uns noch ein paar Tipps aus Ihrer Kundenpraxis geben, die Ihnen wichtig erscheinen?
Gröger: Spontan fallen mir drei Punkte ein. Erstens: Für jedes Unternehmen, das Daten sammelt, sind beschreibende Daten, also Metadaten, zwingend erforderlich: Welche Struktur haben die Daten? Wo kommen sie her? Wie alt sind sie? Wer ist zuständig?
Zweitens: Was ich in letzter Zeit immer häufiger sehe, ist, dass die Fachabteilungen ihre eigenen Daten pflegen und die IT gar keinen Gesamtüberblick mehr hat. Dieser Tendenz sollten Sie unbedingt entgegensteuern.
Und ein letzter Punkt: Wenden Sie mehr Ressourcen für die Qualitätsbereinigung auf. Dies gilt besonders für die Daten, die für geschäftskritische Analysen eingesetzt werden. Bei anderen Daten reicht eventuell eine weniger gute Qualität, die aber auch dokumentiert sein muss, damit Analysen dies berücksichtigen können.
Verwandte Themen