Data Science für Nicht-Programmierer

Trifacta Wrangler

von - 13.11.2018
Trifacta Wrangler ist ein cloudbasiertes Datenaufbereitungs-Tool, dessen Hauptzweck darin besteht, die Daten für die Analyse mit anderen Tools in Form zu bringen. Zu den wichtigsten Funktionen der Software gehören deshalb die Strukturierung, Anreicherung, Bereinigung und Validierung von Daten.
Eine kostenlose Wrangler-Version, die von der Betreiber-Website heruntergeladen werden kann, erlaubt es, bis zu 100 MByte große Dateien zu bearbeiten. Die kostenpflichtige Variante bietet mehr Leistung, Zugriff auf zusätzliche Datenquellen wie Hadoop und Amazon S3 sowie erweiterte Funktionen, zum Beispiel Stichproben.
Trifacta
Trifacta: Der Wrangler ist ein cloudbasiertes Datenaufbereitungs-Tool, mit dem sich Daten für die Analyse mit anderen Tools vorbereiten und strukturieren lassen.
(Quelle: Trifacta)
Trifacta Wrangler integriert sich in On-Premise-Plattformen wie Cloudera, Hortonworks und MapR sowie in cloudbasierte Dienste wie AWS, Google Cloud oder Microsoft Azure. Verfügbar sind außerdem Integrationen mit BlueData, Hadoop, Atlas, Qlik, Salesforce, Alation und einigen anderen.
Trifacta bietet native Unterstützung für komplexere Datenformate wie JSON, Avro, ORC oder Parquet und nutzt die Multi-Workload-Fähigkeiten von Hadoop zur Skalierung der Datentransformation. Visual Data Profiling ermöglicht einen sofortigen Einblick in einzelne Elemente des Datensatzes wie Datenverteilung und Ausreißer, um Transformation und Analyse zu unterstützen.
Die Datenanreicherungsfunktionen erleichtern die Standardisierung von Daten, die Verknüpfung von Datensätzen und die Aggregation von Datenausgaben auf die richtige Ebene. Erweiterte visuelle Datenprofilierungsfunktionen verschaffen dem Benutzer ein besseres Verständnis der Eigenschaften eines Datensatzes.
Die Bedienung erfolgt im Wesentlichen per Mausklick oder Drag and Drop. Für jede Aktion des Benutzers generiert Trifacta eine Codezeile. Das so entstandene Skript lässt sich dann auch aufrufen und direkt im Editor optimieren. Über dessen eigene Wrangle-Skriptsprache lassen sich außerdem weitere Funktionen ausführen, die keine GUI-Entsprechung haben.
Die Software erledigt Transformationen wie das Ändern von Spaltendatentypen, das Filtern nach verschiedenen Kriterien, das Aufteilen von Spalten, das Verbinden und Aggregieren mehrerer Datenquellen sowie das Neuordnen von Spalten.

Data Science Tools (Auswahl)

Anbieter / Produkt

Beschreibung

Alteryx / Alteryx Platform

Selfservice-Datenanalyse-Plattform für Datenexploration, Modellierung und Analyse auch ohne Programmierung. Dank Drag-and-Drop-Schnittstelle sollen vor allem erfahrene Analysten wenig Zeit zur Einarbeitung benötigen

BigML / BigML

Cloudbasierte, pragmatische und dank grafischer Oberfläche einfach zu bedienende
Machine-Learning-Plattform zum Erstellen leistungsfähiger Vorhersagemodelle

DataRobot / DataRobot Cloud

Machine-Learning-Plattform für Datenwissenschaftler, darauf ausgelegt, präzise Vorhersagemodelle in einem Bruchteil der früher benötigten Zeit zu erstellen und einzusetzen

H2O.ai / Driverless AI

Die Automatisierungsplattform unterstützt nichttechnische Mitarbeiter bei der Aufbereitung von Daten und dem Finden optimaler Algorithmen zur Lösung spezifischer Probleme mit maschinellem Lernen

RapidMiner / Studio

Data-Science-Plattform, die eine integrierte Umgebung für maschinelles Lernen, Deep Learning, Text- und Data Mining, Business Analytics sowie Predictive Analytics bietet

Trifacta / Wrangler

Cloudbasiertes Datenaufbereitungs-Tool, dessen Hauptzweck darin besteht, Datenbestände für die Analyse mit anderen Tools zu strukturieren und in Form zu bringen

Eine Farbkodierung zeigt im Transformationseditor die Datenqualität an – Grün gibt den Anteil der Zeilen wieder, die Einträge des richtigen Typs enthalten, andere Farben verweisen auf fehlende oder inkorrekte Datensätze. Über jeder Spalte sorgt außerdem ein Histogramm für eine grundlegende Vorstellung von der Datenverteilung.
Qualitätsbalken und Histogramm bieten einen schnellen und grundlegenden Überblick über einen Datensatz, während die Spaltendetailansicht statistische Werte wie Median, Durchschnitt, Standardabweichung, untere und obere Quartile sowie Minimal- und Maximalwerte vermittelt.
Dank der grafischen Bedienoberfläche gestaltet sich die Arbeit mit Trifacta einfacher, als wenn man eigene Skripts von Grund auf neu schreiben müsste. Andererseits ist man dafür natürlich weniger flexibel als bei Nutzung einer Sprache wie R. Die Grenzen der gewöhnlichen Mausschnittstelle lassen sich überwinden, indem man Trifactas Wrangle-Sprache verwendet, allerdings muss der Benutzer einiges an Zeit inves­tieren, um sich in die Skriptsprache einzuarbeiten.
Verwandte Themen