Das Data Warehouse wandert in die Cloud

Die richtige Lösung finden

von Thomas Hafen - 02.07.2018

Vor der Entscheidung für oder gegen eine Data-Warehouse-Lösung sollten sich Unternehmen vor allem über ihre Ziele klar werden, rät Jens Bussmann von Google: „Ist die Entscheidung an Kosten gebunden oder geht es eher um Performance? Sollen besonders große Datenmengen verarbeitet werden oder geht es um Geschwindigkeit bei der Verarbeitung?“

Carsten Bange rät, alle Komponenten im Blick zu behalten: „Wie kommen die Daten in das Warehouse, wie teuer ist der Datentransfer, wie wirkt sich die Übertragung auf die Gesamt-Performance aus, wie greift das Frontend auf die Daten zu?“ Vor allem Multi-Cloud-Szenarien, in denen Data Warehouse und BI-Tools in unterschiedlichen Umgebungen laufen, können zu Problemen führen. „Das funktioniert nach unseren Erfahrungen nicht immer zufriedenstellend“, so Bange. „Man muss sich das komplette Szenario anschauen, gerade wenn andere Komponenten wie BI und Integrationsservices auch aus der Cloud kommen.“

AWS, Microsoft, Google

Bei der Wahl einer cloudbasierten Data-Warehouse-Lösung sind Unternehmen nicht notwendigerweise auf die klassischen Datenbankanbieter angewiesen. Die drei führenden Cloud-Provider Amazon Web Services (AWS), Microsoft und Google haben jeweils eine eigene Data-Warehouse-Lösung im Portfolio.

Das AWS-Produkt Amazon Redshift ist eine relativ klassische relationale Datenbank. Der 2013 eingeführte Service beruht auf PostgreSQL 8.0.2 und damit auf einer ziemlich alten Version des Open-Source-Datenbanksystems. Aktuell ist bereits Version 10 von PostgreSQL verfügbar. „Den Vorwurf von Oracle, Redshift basiere auf einer älteren Technologie und habe daher noch Aufholbedarf bei anspruchsvollen Datenbank-Features, kann man nicht ganz von der Hand weisen“, meint BARC-Geschäftsführer Bange.

Neben Standardabfragen auf strukturierten Daten bietet AWS mit Redshift Spectrum die Möglichkeit, SQL-Abfragen auf unstrukturierten Daten durchzuführen, die sich im Amazon-Objektspeicher S3 befinden. Redshift Spectrum unterstützt eine Vielzahl von Datenformaten.

Das Marktforschungsunternehmen GigaOm bemängelt neben den fehlenden seit Postgre-SQL 9 zur Verfügung stehenden zusätzlichen SQL-Funktionen die eingeschränkte Elastizität von Redshift. Cluster lassen sich demnach nicht im laufenden Betrieb erweitern.

Das 2016 eingeführte Microsoft Azure SQL Data Warehouse basiert ebenso wie Redshift auf einer Massivparallelrechner-Architektur (Massively Parallel Processing, MPP) mit unabhängigen Knoten (Shared Nothing), deren Code-Basis (Azure SQL Database) stark der von Microsoft SQL Server ähnelt. Beide verwenden mit Transact SQL (T-SQL) denselben Microsoft-eigenen SQL-Dialekt und lassen sich von bekannten Tools wie dem SQL Server Management Studio (SSMS) aus bedienen. Das Microsoft-Angebot lässt sich im laufenden Betrieb skalieren und bei Bedarf pausieren. Allerdings gehen alle Abfragen verloren, die während einer Skalierung oder Pausierung abgesetzt werden.

Das Google-Data-Warehouse BigQuery basiert auf dem Abfragedienst Dremel, den das Unternehmen für seine eigenen Datenanalysen entwickelt hat. Nach Angaben des Anbieters liegt die Abfragezeit selbst bei Milliarden von Reihen bei kaum mehr als 10 oder 20 Sekunden, ohne dass eine Indizierung notwendig wäre. BigQuery unterstützt laut Google-Mitarbeiter Bussmann den SQL-Standarddialekt und ist leicht zu verwalten. „Daneben ist die von Google entwickelte KI führend in der Analyse und Nutzbarmachung der Daten“, erklärt der Regional Sales Lead DACH. BARC-Geschäftsführer Bange findet vor allem die Kombination von BigQuery mit dem Datenvorbereitungsdienst Cloud Dataprep interessant, der von dem Anbieter Trifacta betrieben wird.

Kriterien für die Wahl einer cloudbasierten Data-Warehouse-Lösung

Das Marktforschungsunternehmen GigaOm rät, bei Cloud-Analytics-Lösungen vor allem auf diese Aspekte zu achten:

SQL-Support: Das Data Warehouse sollte kompatibel zu Standard-SQL sein. Erweiterungen der Query-Funktionen oder die Unterstützung zusätzlicher Array- und Strukturtypen sind von Vorteil, sollten aber nicht zulasten der Kompatibilität gehen.

Integrierte Optimierung: Eine Cloud-Lösung sollte Datenbankabfragen selbstständig und automatisiert beschleunigen. Die Optimierungsfunktionen sollten die cloudspezifischen Eigenheiten berücksichtigen und auch bei verteilten Daten funktionieren.

Skalierbarkeit: Ein cloudbasiertes Data Warehouse sollte sich unterbrechungsfrei und unbegrenzt erweitern und auch zurückfahren lassen, ohne dass der Nutzer vorab Instanzen definieren oder reservieren muss. Je granularer die Ressourcenbereitstellung ist, desto besser.

Parallele Nutzung: Die Verfügbarkeit in der Cloud erweitert in der Regel den Kreis an Nutzern erheblich. Ein cloudbasiertes Data Warehouse sollte deshalb eine hohe Zahl gleichzeitiger Zugriffe ermöglichen, ohne dass es zu Leistungseinbußen oder Inkonsistenzen kommt.

Trennung von Speicher- und Rechenressourcen: Um die Kostenvorteile und die Flexibilität der Cloud optimal nutzen zu können, sollte die Abrechnung für Speicherplatz und Rechenleistung getrennt erfolgen. So zahlt der Anwender nur dann für Compute-Instanzen, wenn er sie wirklich braucht, während in der übrigen Zeit nur geringe Aufwände für die Datenhaltung anfallen.

Unterstützung semistrukturierter Datenformate: Neben SQL sollte die Lösung Formate wie JSON, XML, Avro oder Parquet unterstützen und diese ohne zusätzliche Transformationsschritte verwenden können.

Quelle: GigaOm Sector Roadmap: Cloud Analytic Databases 2017 (ergänzt, verändert)

Seite

Das Data Warehouse wandert in die Cloud

Die richtige Lösung finden

AWS, Microsoft, Google

Mehr zum Thema