Machine Learning hat ein großes Potenzial

Anbieterauswahl erst nach ausführlicher Sondierung

von Konstantin Pfliegl - 25.04.2019

com! professional: Sie haben sich sicher eine Menge Anbieter angesehen. Wie verlief der Auswahlprozess und warum haben Sie sich letztendlich für Cloudera entschieden?

Von Grambusch: Wir haben verschiedene Punkte definiert, die uns wichtig sind. Dazu gehört unter anderem das leichte Management des Hadoop-Clusters durch eine Weboberfläche wie den Cloudera

Rezepte und Zutaten per Abo: HelloFresh versendet wöchentlich Komplettpakete für bis zu fünf Mahlzeiten.

(Quelle: com! professional / Screenshot )

Manager. Außerdem haben wir darauf geachtet, dass die von uns genutzten Services in den neuesten Versionen bereitstehen und Upgrades des Clusters leicht durchgeführt werden können. Auch automatische Backups und Support waren uns wichtig.

com! professional: Schauen wir mal ein wenig in die Praxis: Wie funktioniert die Datenanalyse bei HelloFresh in der täglichen Arbeit?

Von Grambusch: Wir haben ein Team von zwölf Data Engineers und zwei Product Ownern, die sich um die Infrastruktur des Data Warehouse sowie unsere ETL-Prozesse (Extract, Transform, Load) und Endnutzer-Tools kümmern. Sie sorgen dafür, dass alle relevanten Daten im Unternehmen in unser Hadoop-Cluster fließen und dort so strukturiert und transformiert werden, dass sie von unseren Kollegen optimal genutzt werden können.

com! professional: Und wie viele Mitarbeiter greifen bei Ihnen auf die Daten zu?

Von Grambusch: Derzeit gibt es etwa 150 Personen bei HelloFresh, die als Analysten oder Data Scientists täglich intensiv mit unseren Daten im Data Warehouse arbeiten. Dabei werden unsere Daten größtenteils via SQL analysiert, mit der Visualisierungs-Software Tableau zu Dashboards und Reports verarbeitet oder in Data-Science-Modelle geladen.

com! professional: Von welchen Datenmengen sprechen wir eigentlich?

Von Grambusch: Wir transferieren im Monat etwa 50 TByte an Daten für HelloFresh. Allerdings ist für den Großteil unserer Nutzer nur ein kleiner Teil dieser Daten relevant. Derzeit lagern wir etwa 20 TByte an Daten direkt auf unserem Hadoop-Cluster.

Seite

Machine Learning hat ein großes Potenzial

Anbieterauswahl erst nach ausführlicher Sondierung

Mehr zum Thema