Machine Learning hat ein großes Potenzial

Problemloser Anbieterwechsel

von Konstantin Pfliegl - 25.04.2019

com! professional: Unternehmen reden zwar nicht gerne darüber - aber wo hakte es bei der Umstellung?

Von Grambusch: Es lief alles ziemlich gut. Dadurch dass wir schon viel Erfahrung mit Hadoop hatten und parallel an dem neuen Cluster arbeiten konnten, gab es keine größeren Probleme.

Geholfen hat uns dabei die Automatisierung, wodurch wir, wenn mal etwas schiefging, das Cluster schnell wieder neu generieren konnten. Ein nützliches Tool war hier der Kafka Mirror Maker, der es uns erlaubte, Events zu replizieren.

com! professional: Wie sind Ihre bisherigen Erfahrungen? Hat sich die Umstellung gelohnt? Wo liegen die Vor- und Nachteile gegenüber Ihrer früheren Lösung?

Von Grambusch: Wir sind glücklich darüber, dass die Releases von Cloudera uns immer aktuelle Versionen der integrierten Dienste wie Impala bereitstellen. Auch das grundsätzliche Management des Hadoop-Clusters dank Tools wie dem Cloudera Manager gefällt uns gut.

com! professional: Für die eigentliche Datenanalyse - BI und Analytics - setzen Sie auf Tools von Tableau. Können Sie uns skizzieren, wie Ihre Datenanalyse-Plattform heute aufgebaut ist? Welche Tools und Standards nutzen Sie?

Von Grambusch: Für die Data Ingestion, also das Verfügbarmachen der Daten, benutzen wir hauptsächlich Apache Kafka oder unsere eigenen Konnektoren. Anschließend werden die Daten entweder durch mit Airflow gesteuerte Spark-Batch-Jobs transformiert und als Parquet-Files (ein Hadoop-Speicherformat) in unserem Hadoop Distributed File System (HDFS) gespeichert oder via Spark-Streaming-Jobs in den Datenspeicher Apache Kudu geladen.

Die Daten werden dann von unseren internen Nutzern größtenteils via SQL über Impala konsumiert. Für die Endnutzer stellen wir Alation als Dokumentations- und Query-Plattform zur Verfügung und Tableau zur Datenvisualisierung und fürs Reporting.

com! professional: Vor allem im Rahmen der Cloud-Nutzung spielt der Datenschutz eine große Rolle. Ihre Daten liegen auf den Amazon Web Services. Darunter sind ja bestimmt auch die ein oder anderen Kundendaten? Wie stellen Sie sicher, dass Kundendaten der europäischen Datenschutz-Grundverordnung gemäß verarbeitet werden?

Von Grambusch: Die Sicherheit der Daten steht für uns selbstverständlich an oberster Stelle. Wir behandeln die uns zur Verfügung stehenden Daten DSGVO-konform.

Um zu gewährleisten, dass die Daten auch dementsprechend verarbeitet werden können, haben wir Prozesse eingeführt, die zum Beispiel sicherstellen, dass personenbezogene Daten im Data Warehouse leicht gelöscht werden können.

com! professional: Blicken wir zum Schluss noch in die nähere Zukunft: Welche weiteren Veränderungen sind bei HelloFresh in Bezug auf die IT für die nächste Zeit geplant?

Von Grambusch: Ein großes Thema für uns ist, dass wir die Verarbeitung von Daten in unserer gesamten IT-Abteilung, also nicht nur im Data Warehouse, moderner und zuverlässiger gestalten wollen.

Dazu arbeiten wir zum Beispiel daran, Apache Kafka als Standard für alle unsere Events zu nutzen und firmenweite Standards und Best Practices festzulegen.

Auch arbeiten wir an Möglichkeiten, es für Endnutzer einfacher zu machen, die Ressourcen unseres Clusters zu nutzen, indem sie beispielsweise größere ETL-Prozesse eigenständig und ohne Programmierkenntnisse einrichten können.

Seite

Machine Learning hat ein großes Potenzial

Problemloser Anbieterwechsel

Mehr zum Thema