Predictive Analytics schlagen das Bauchgefühl

Die Methoden der Predictive Analytics

von - 05.02.2016
Hohe Erwartungen: Die deutsche Fertigungsindustrie setzt große Hoffnungen in Predictive Analytics.
Hohe Erwartungen: Die deutsche Fertigungsindustrie setzt große Hoffnungen in Predictive Analytics.
Klassische statistische Verfahren kommen auch bei Predictive Analytics zum Einsatz. Dabei muss man zwischen linearen und nicht linearen Analysen beziehungsweise Vorhersagemodellen sowie parametrischen und nicht parametrischen Verfahren unterscheiden. Parametrische Verfahren gehen von einer Normalverteilung der Daten aus, der klassischen Gaußschen Glockenkurve. Parameterfreie Ansätze wie der Mann-Whitney-U-Test kommen dagegen ohne Annahmen über die Verteilung der Daten aus.
Zu den linearen Verfahren gehören die multiple lineare Regression (MLR), Partial Least Squares (PLS), Ridge Regression oder LDA (Linear Discriminant Analysis). Zu den nicht linearen zählen LOWESS (Locally Weighted Scatterplot Smoothing), GAM (Generalized Additive Model), MARS (Multiple Adaptive Regression Splines) oder FDA (Flexible Discriminant Analysis).
Artus Krohn-Grimberghe
Artus Krohn-Grimberghe
Chief Data Scientist bei pmOne Analytics
www.pmone.com
„Bereits mit günstigen Open-Source-Technologien lässt sich verproben, ob Use Cases zutreffen und weiterverfolgt werden sollten.“
Hinzu kommen analytische Prognosemodelle, die häufig auf maschinelles Lernen mit Hilfe neuronaler Netze setzen. Das System entdeckt eigenständig oder angeleitet Gesetz-mäßigkeiten auf Basis von Trainingsdaten. Der daraus abgeleitete Algorithmus wird an Testdaten überprüft und optimiert. Nach einigen Durchgängen kann das Verfahren dann auf Daten angewandt werden, deren Klassifikation unbekannt ist. Zu den eingesetzten Verfahren gehören SVM (Support Vector Machine) und RVM (Relevance Vector Machine), Entscheidungsbäume (Decision Trees), Bootstrap Aggregation (Bagging) und Random Forests.

Keine Vorhersage ohne Daten

Die Prognosegüte steht und fällt mit der Datenbasis, weshalb dem Data Mining eine große Bedeutung zukommt. Alle internen verfügbaren Datenquellen zu entdecken, auszuwerten und zusammenzuführen sind vorbereitende Schritte in diesem Prozess. „Data Mining ist die Voraussetzung, um überhaupt Muster erkennen zu können“, sagt Datapine-Geschäftsführer Jakob Rehermann. „Je mehr Daten vorliegen, desto besser können die Algorithmen aus Ereignissen lernen und umso exakter sind die Vorhersagen und Handlungsempfehlungen“, ergänzt Dunja Riehemann von Blue Yonder.
Dunja Riehemann
Dunja Riehemann
Director Marketing bei Blue Yonder
www.blue-yonder.com
„Erst die Kombination von Echtzeitanalysen und automatisierten Geschäftsprozessen bringt Anwendern den Effizienzgewinn, den sie im harten internationalen Wettbewerb benötigen.“
Menge allein genügt nicht, auch die Datenqualität muss stimmen. „Der typische Data Scientist verbringt 80 Prozent seiner Zeit damit, saubere Daten zu bekommen“, sagt Pentaho-Manager Claßen. Ein Data Warehouse ist zur Datenhaltung nicht zwingend notwendig. Es kann sogar kontraproduktiv sein, wenn die Daten zu sehr aggregiert und vorverarbeitet sind. „Viele fortschrittliche Analysen werden mit Roh- oder Detaildaten durchgeführt, weil man so mehr Daten für die Modellbildung hat“, sagt Carsten Bange, Geschäftsführer des Analystenhauses BARC (siehe auch Interview auf der letzten Seite).
Verwandte Themen