Das Data Warehouse wandert in die Cloud

Im Gespräch mit Tristan Woerth, Head of Data Scientce bei Siroop

von - 02.07.2018
Der Schweizer Online-Marktplatz Siroop setzt auf das cloudbasierte Data Ware­house von Snowflake Computing, um seine Daten schneller, gründlicher und einfacher analysieren zu können.
Tristan Woerth
Tristan Woerth: Head of Data Science bei Siroop
(Quelle: Siroop )
Tristan Woerth, Head of Data Science bei Siroop, erklärt die Gründe für diese Entscheidung.
com! professional: Herr Woerth, worin bestehen für einen E-Commerce-Anbieter wie Siroop die größten Herausforderungen bei der Datenanalyse?
Tristan Woerth: Für uns war vor allem die Frage entscheidend, wie wir unsere Daten schneller auswerten können. Je früher wir Informationen erhalten, desto wertvoller sind sie für uns. Das spielt in vielen Bereichen unseres Geschäfts eine wesentliche Rolle. Der Warenbestand unserer Händler verändert sich beispielsweise sehr schnell, wir müssen daher möglichst genau und zeitnah über Nachfrage und Verfügbarkeit Bescheid wissen, damit keine Lieferengpässe entstehen. Auch in einem Betrugsfall ist es entscheidend, ob der Täuschungsversuch eine Stunde nach Eingang der Bestellung erkannt wird oder erst am nächsten Tag, wenn die Ware bereits das Lager verlassen hat.
Hinzu kommt, dass Daten bei uns in vielen verschiedenen Formaten vorliegen, die wir möglichst direkt lesen wollen, ohne sie vorher transformieren zu müssen.
com! professional: Sie haben für die Analyse ein cloudbasiertes Data Warehouse gewählt. Aus welchem Grund bevorzugen Sie eine Cloud-Lösung?
Woerth: Ich betrachte Siroop als cloud-native. Wir betreiben keine eigenen Server, eine Lösung, die die Anschaffung von Hardware erfordert hätte, kam daher gar nicht infrage.
Selbst ein Konzept wie EC2 von AWS sehe ich für Siroop nicht als zielführend an, da bei solchen Lösungen Überlegungen zu In­stanzen, Containern oder Server notwendig sind. Ich möchte Services nutzen können und mich nicht um die Systemadministra­tion kümmern.
com! professional: Das heißt, eine der traditionellen Data-Warehouse-Lösungen kam prinzipiell nicht in Betracht?
Woerth: Doch, diese Möglichkeit wurde zu Beginn des Projekts ebenfalls diskutiert. Viele der herkömmlichen Data-Warehouse-Lösungen lassen sich ja auch auf Cloud-In­stanzen migrieren. Unserem Business-Intelligence-Team wurde aber schnell klar, dass eine solche Lösung für Siroop nicht sinnvoll ist.
Wer ein traditionelles Data Warehouse in die Cloud migriert, löst keines der eigentlichen Probleme und hat am Ende dieselben Beschränkungen wie zuvor im eigenen Rechenzentrum.
com! professional: Und warum haben Sie sich für Snowflake entschieden?
Woerth: Das hatte mehrere Gründe. Erstens ist der Einstieg äußerst einfach. Ich konnte anhand der angebotenen Tutorials und Dokumente in einer Stunde produktiv damit arbeiten, ohne einen Snowflake-Mitarbeiter kontaktieren zu müssen. Jeder Neukunde erhält Credits im Wert von 400 Dollar, die er für sein erstes Projekt verwenden kann.
Zweitens lässt sich das Data Warehouse von Snowflake sehr gut skalieren. Ich kann die Datenbank von null aus hochfahren und bei Bedarf auch wieder zurückführen. Ich muss mir keine Gedanken über Server-Zahlen oder Clustergrößen machen.
Drittens unterstützt die Lösung nativ aktuelle Datenformate wie JSON oder XML.
com! professional: Welches Data Warehouse hatten Sie bisher im Einsatz?
Woerth: Wir haben bisher vornehmlich Databricks und Spark für Datenanalysen verwendet. Snowflake ersetzt diese Lösung aber nicht, sondern ergänzt sie. Wir sparen durch Snowflake eine Menge Programmieraufwand auf unserem Data Lake, den wir bei Daten­abfragen früher hatten.
com! professional: Welche anderen Data-Warehouse-Lösungen haben Sie evaluiert?
Woerth: Wir haben uns auch die anderen beiden reinen Cloud-Data-Warehouse-Lösungen Amazon Redshift und Google BigQuery angesehen. Gegen Redshift sprach, dass wir uns vorab über die Größe der Infrastruktur hätten Gedanken machen müssen. Es gibt zwar eine gewisse Flexibilität, aber dennoch kommt man um eine Provisionierung nicht herum.
com! professional: Und BigQuery?
Woerth: Das ist eine wirklich gute Lösung, aber sie adressiert eher Ingenieure und Programmierer als Datenanalysten und Data Scientists und war deshalb nicht unsere erste Wahl.
com! professional: Wie verlief das Projekt? Konnten Sie Budgetziele und Termine einhalten?
Woerth: Als agiles Unternehmen gibt es bei uns zwar einen Projekt­anfang, aber oft kein definiertes Ende. Daher kann ich Ihre Fragen nicht so einfach beantworten.
Zu Beginn des Projekts hatten wir mit dem BI-Team vereinbart, einen Proof of Concept für eine Fragestellung bei unseren Sales Reports zu entwickeln. Wir hatten ziemlich schnell eine hinreichend gut funktionierende Lösung und fügen nun weiter Daten hinzu.
com! professional: Gab es im Projekt Überraschungen positiver oder negativer Art?
Woerth: Man muss ein paar Eigenheiten von Snowflake berücksichtigen. Beispielsweise gibt es keinen Index und es gibt auch kein Backup-Konzept im herkömmlichen Sinn. Stattdessen speichert man Referenzen auf einer Zeitachse. Hier muss man zum Teil deutlich umdenken.
com! professional: Gibt es Dinge, die Sie vermissen?
Woerth: Noch sind die meisten Datenmodellierungswerkzeuge nicht kompatibel zu Snowflake.
com! professional: Haben Sie einen Return on Invest (ROI) berechnet? Falls ja, wurde dieser eingehalten?
Woerth: Wir haben uns gegen eine solche Rechnung entschieden, weil es ja keine wirklichen Investitionen gibt. Wir mussten keine Server oder Lizenzen kaufen, die Abrechnung erfolgt im Wesent­lichen nutzungsbasiert.
com! professional: Was würden Sie mit dem Wissen von heute bei diesem Projekt anders machen?
Woerth: Ich würde besser auf unseren Account-Manager bei Snowflake hören. Er empfahl mir für ETL-Aufgaben die Cloud-Integrations-Software Cloud Matillion. Ich habe diesen Tipp zunächst
ignoriert, was ich nicht wieder tun würde. Mit Matillion lassen sich Abfragen nämlich sehr effizient planen und durchführen.
Außerdem würde ich von Beginn an mehr Ressourcen in das Projekt investieren. Nach heutiger Erfahrung wissen wir, dass die Vorteile der Snowflake-Lösung um so größer sind, je intensiver man das Data Warehouse nutzt – zumal mehrere Mitarbeiter problemlos parallel an einem Projekt arbeiten können.
Verwandte Themen