Deutsche Börse macht sich fit für Big Data

Daten aufräumen mit Trifacta

von Hartmut Wiehr - 28.12.2017

Das Start-up Trifacta hat sich bald nach seiner Gründung 2012 einen Namen gemacht auf dem Gebiet der Integration, Aufbereitung und Auswertung von Rohdaten aus den unterschiedlichsten Quellen. Derzeit kümmern sich Data Scientists bei mehr als 8000 Kunden darum, aus deren Daten mehr herauszuholen. Trifacta unterscheidet sechs Aktivitäten bei diesem Prozess des „Data Wranglings“:

Entdecken (Discovering): Eine interaktive Exploration stellt Merkmale von Daten fest und ordnet diese in Tabellen oder Histogramme ein, um den Wert der Daten zu bestimmen.
Strukturieren (Structuring): Format und Schema der Daten werden verändert. Mit „Predictive Transformation“ können Datengruppen hervorgehoben werden, um vom Programm Vorschläge für ihre richtige Umwandlung zu erhalten.
Säubern (Cleaning): Während dieser Phase bestimmen die Anwender die Werte von Daten und die angemessene Veränderungsmethode, um sie zu korrigieren oder zu löschen. Mit Trifacta lassen sich ungültige Werte per Klick isolieren und ersetzen, ohne die ganze Analyse zu gefährden.
Anreicherung (Enriching): Die für geschäftliche Entscheidungen wichtigen Daten sind oft auf verschiedenen Ebenen verteilt. Um alle wesentlichen Aspekte zu erfassen, müssen häufig weitere Datenquellen zur Anreicherung der bestehenden Datensätze herangezogen werden. Trifacta setzt hierzu auch Machine Learning ein.
Bestätigen (Validating): In einem finalen Check überprüft Trifacta die Änderungen an den Daten und stellt nicht durchgeführte oder misslungene Transformationen fest. Man muss explizit bestätigen, dass der veränderte Datensatz den ursprünglichen Anforderungen entspricht, bevor er veröffentlicht und weiterverwendet werden kann.
Veröffentlichen (Publishing): Die von Trifacta bearbeiteten Daten können mit statistischen und analytischen Programmen sowie Visualisierungs-Tools weiter ausgewertet werden.

Den Nutzen der Trifacta-Verfahren bei der Deutschen Börse umschreibt Content-Lab-Leiter Sippel so: „Um zum Beispiel Marktteilnehmern Vorhersagen für bestimmte Handelskosten zur Verfügung zu stellen, müssen wir verschiedene Datenquellen aus unserem Haus zusammenbringen. Dazu sind viele verschiedene Schritte in einer Prozesskette notwendig. Die Daten stammen aus verschiedenen Systemen, haben unterschiedliche Formate und sind mit jeweils anderen Standards abgespeichert. Um ein übergreifendes Modell bauen zu können, muss man zunächst die Daten harmonisieren – und sie zum Teil auch aufräumen.“

Trifacta zufolge können Anwender im Schnitt 70 Prozent der Zeit einsparen im Vergleich zu bestehenden Ansätzen wie Excel, SQL und anderen Tools, wenn sie ihre disparaten Daten mit den geschilderten Methoden säubern und kombinieren.

Bei der Deutschen Börse hält man sich vornehm bedeckt, wenn es um die Frage geht, welche anderen Tools man neben Trifacta noch in die engere Wahl gezogen oder getestet hat. Aus der Welt der Analysten und Consultants bekommt man hier mehr Informationen. So hat Forrester Research in dem Report „The Forrester Wave: Data Preparation Tools. The Seven Providers That Matter Most And How They Stack Up“ vom März 2017 den Markt für Data-Preparation-Tools näher untersucht und sieben führende Anbieter identifiziert. Es sind Alteryx, Datawatch, Oracle, Paxata, SAS, Trifacta und Unifi.

Die Forrester-Analysten gehen davon aus, dass dieser Markt weiter zulegen wird, da es in vielen Branchen ein wachsendes Bedürfnis gibt, mehr über die Kunden zu wissen (Customer Insights) – besonders bei Marketing und Angebotsgestaltung in Ladengeschäften oder in Webshops. Dabei soll die Betrachtung und Analyse der Daten möglichst einfach vonstattengehen – ohne dass man geschultes IT-Personal hinzuziehen muss. Machine Learning und Automatisierung der Tools sind denn auch entscheidend für den Markterfolg.

Laut Forrester gehört Trifacta neben Paxata zu den Marktführern, weil man dort eine gute Balance zwischen den Anforderungen von Analysten und Business-Usern gefunden habe. Zur erfolgreichen Strategie von Trifacta gehöre es auch, Interessenten stressfrei mit einer Gratis-Version des Tools experimentieren zu lassen – und so einen sehr großen Korpus an Daten zu erhalten, um seine Programme zu verbessern. Der Report urteilt: „Trifacta verfügt über besonders ausgefeilte Methoden für das Sammeln und für die automatische Umwandlung von Daten. Viele Kunden zeigen sich zufrieden, es gibt aber auch kritische Anmerkungen zu den Such- und Collaboration-Funktionen, die verbessert werden sollten.“

Bei der Deutschen Börse überwiegt die Zufriedenheit mit Trifacta, sogar die wie bei allen Start-ups ungewissen Zukunftsaussichten beunruhigen Lab-Leiter Sippel nicht. Besonders freut er sich über die Anbindung des Projekts an eine Public Cloud, die in dieser Weise bei den Handelssystemen der Deutschen Börse so noch nicht möglich sei: „In unserer cloudbasierten Infrastruktur analysieren wir Daten und entwickeln wir Use-Cases, aus denen am Ende im besten Fall auch produktive Systeme, Produkte oder auch nur neue Erkenntnisse entstehen. Durch die Nutzung der Cloud können wir Speicher- und Rechenkapazitäten dafür entsprechend flexibel abrufen.“

Seite

Deutsche Börse macht sich fit für Big Data

Daten aufräumen mit Trifacta

Mehr zum Thema