Aus Datenbergen Einsichten gewinnen

Daten vorbereiten

von - 08.12.2020
Analytics-Nutzer sind erfolgreicher
Erfolgsrezept: Der umfassende Einsatz von Kundenanalysen steigert die Performance von Unternehmen immens.
(Quelle: McKinsey "DataMatics 2013", n = 400 internationale Unternehmen )
Bevor Sie die Daten für die Analyse speichern, müssen sie - im zweiten Schritt - vorbereitet werden. In dieser Phase müssen die Daten bereinigt, normalisiert und aufbereitet werden. Was bedeutet das? Ein wesentliches Problem bei der Bereitstellung der Unternehmensdaten ist deren Qualität. Opera­tive Systeme wie Buchungs- oder Warenwirtschaftssysteme liefern nicht immer perfekte Daten. Oft bestehen gravierende Qualitätsmängel, etwa mehrfach vorkommende, fehlende oder falsch verknüpfte Daten. Manchmal sind diese auch einfach inhaltlich falsch. Solche Datenmängel verfälschen die Ergebnisse der Datenanalyse.
Ein weiteres Problem ist die Heterogenität der Datenquellen selbst. Im Normalfall liegen den Daten unterschiedliche Formate zugrunde, die vor der Weiterverarbeitung vereinheitlicht werden müssen. Ziel dieser Datenintegration ist es, die Daten aus verschiedenen Vorsystemen für die BI-Systeme in einen einheitlichen, konsistenten Zustand zu überführen.
Dieser Prozess der Datenbereinigung und -standardisierung ist Teil eines umfassenderen Transformationsprozesses. Er hat die grundsätzliche Aufgabe, die internen und externen Daten in themenorientierte, „saubere“ und analysefähige Datenbanken zu überführen. Diese Aktion wird in drei Schritten als sogenannter ETL-Prozess vollzogen:
Extract: Herausholen der relevanten Daten aus verschiedenen Quellen
Transform: Umwandeln der Daten in das Schema und Format der Zieldatenbank
Load: Laden der Daten in das Data Warehouse oder einen anderen Daten-Pool.
Am Ende dieser Phase sollten Ihre Daten in einem Format vorliegen, das den einfachen Zugriff und eine unumschränkte Datenanalyse ermöglicht.

Daten-Tool

Lizenz

Beschreibung

Professionelle Analyse-Tools für Datenexperten

R

Open Source

R ist unter Datenexperten eines der beliebtesten Analysewerkzeuge. R kann gut mit großen Datensätzen umgehen, ist vielseitig einsetzbar und lässt sich in viele Big-Data-Plattformen integrieren

Python

Open Source

Python ist das Programmierwerkzeug der Wahl bei vielen Data Scientists. Die Sprache ist relativ leicht zu lernen und ziemlich schnell. Als mächtiges Analysewerkzeug hat sich Python mit der Entwicklung von analytischen und statistischen Bibliotheken wie NumPy und SciPy etabliert

Apache Spark

Open Source

Spark ist eine Open-Source-Tool mit einem Schwerpunkt auf Analytik, insbesondere auf unstrukturierten Daten und großen Datenmengen. Spark ist in den vergangenen Jahren enorm populär geworden

Apache Storm

Open Source

Storm ist das Big-Data-Tool der Wahl, wenn die Daten als kontinuierlicher Datenstrom eintreffen. Storm ist ideal für Echtzeit-Analysen oder die Verarbeitung von Datenströmen geeignet

SAS

Kommerziell

SAS ist ein robustes, vielseitiges und leicht zu erlernendes Tool. Einige der spezialisierten Module, die in der jüngsten Vergangenheit hinzugefügt wurden, sind SAS Analytics für IOT und SAS Analytics Pro für mittelständische Unternehmen

Splunk

Open Source

Splunk wurde früher vor allem zur Verarbeitung von Daten aus Maschinen-Log-Dateien verwendet. Inzwischen ist es viel mehr als das. Splunk hat mächtige Visualisierungsoptionen und dank einer Webschnittstelle ist es relativ einfach zu benutzen

Einfache Analyse- und Selfservice-Tools

Microsoft Excel

Kommerziell

Excel ist das am weitesten verbreitete Analyse-Tool der Welt, mit dem sich einfache Analysen durchführen lassen. Excel ist wichtig, wenn das Analyseteam mit dem Geschäftsbetrieb zusammenarbeitet

Microsoft Power BI

Kommerziell

Power BI verwandelt Daten in umfassende interaktive Visualisierungen, indem es Business-Analyse-Tools nutzt und Erkenntnisse in Dashboards vorstellt

SAP Analytics Cloud

Kommerziell

SAP Analytics ist eine flexible Analytics-Plattform in der Cloud im Selbstbedienungsmodus. Der Anwender erhält Empfehlungen zur Umsetzung der individuellen Anforderungen

Tableau

Kommerziell

Mit Tableau lassen sich Daten einfach analysieren, visualisieren und austauschen, ohne dass die IT-Abteilung eingreifen muss. Tableau unterstützt viele Datenquellen wie MS Excel, Oracle, MS SQL und Salesforce

Qlikview

Kommerziell

Qlikview und Tableau wetteifern im Wesentlichen um den Spitzenplatz unter den Giganten der Datenvisualisierung. Qlikview ist etwas schneller als Tableau und bietet erfahrenen Benutzern etwas mehr Flexibilität. Tableau hat eine intuitivere Bedienoberfläche und ist leichter zu erlernen

Verwandte Themen