Das Data Warehouse wandert in die Cloud
Die richtige Lösung finden
von Thomas Hafen - 02.07.2018
Vor der Entscheidung für oder gegen eine Data-Warehouse-Lösung sollten sich Unternehmen vor allem über ihre Ziele klar werden, rät Jens Bussmann von Google: „Ist die Entscheidung an Kosten gebunden oder geht es eher um Performance? Sollen besonders große Datenmengen verarbeitet werden oder geht es um Geschwindigkeit bei der Verarbeitung?“
Carsten Bange rät, alle Komponenten im Blick zu behalten: „Wie kommen die Daten in das Warehouse, wie teuer ist der Datentransfer, wie wirkt sich die Übertragung auf die Gesamt-Performance aus, wie greift das Frontend auf die Daten zu?“ Vor allem Multi-Cloud-Szenarien, in denen Data Warehouse und BI-Tools in unterschiedlichen Umgebungen laufen, können zu Problemen führen. „Das funktioniert nach unseren Erfahrungen nicht immer zufriedenstellend“, so Bange. „Man muss sich das komplette Szenario anschauen, gerade wenn andere Komponenten wie BI und Integrationsservices auch aus der Cloud kommen.“
AWS, Microsoft, Google
Bei der Wahl einer cloudbasierten Data-Warehouse-Lösung sind Unternehmen nicht notwendigerweise auf die klassischen Datenbankanbieter angewiesen. Die drei führenden Cloud-Provider Amazon Web Services (AWS), Microsoft und Google haben jeweils eine eigene Data-Warehouse-Lösung im Portfolio.
Das AWS-Produkt Amazon Redshift ist eine relativ klassische relationale Datenbank. Der 2013 eingeführte Service beruht auf PostgreSQL 8.0.2 und damit auf einer ziemlich alten Version des Open-Source-Datenbanksystems. Aktuell ist bereits Version 10 von PostgreSQL verfügbar. „Den Vorwurf von Oracle, Redshift basiere auf einer älteren Technologie und habe daher noch Aufholbedarf bei anspruchsvollen Datenbank-Features, kann man nicht ganz von der Hand weisen“, meint BARC-Geschäftsführer Bange.
Neben Standardabfragen auf strukturierten Daten bietet AWS mit Redshift Spectrum die Möglichkeit, SQL-Abfragen auf unstrukturierten Daten durchzuführen, die sich im Amazon-Objektspeicher S3 befinden. Redshift Spectrum unterstützt eine Vielzahl von Datenformaten.
Das Marktforschungsunternehmen GigaOm bemängelt neben den fehlenden seit Postgre-SQL 9 zur Verfügung stehenden zusätzlichen SQL-Funktionen die eingeschränkte Elastizität von Redshift. Cluster lassen sich demnach nicht im laufenden Betrieb erweitern.
Das 2016 eingeführte Microsoft Azure SQL Data Warehouse basiert ebenso wie Redshift auf einer Massivparallelrechner-Architektur (Massively Parallel Processing, MPP) mit unabhängigen Knoten (Shared Nothing), deren Code-Basis (Azure SQL Database) stark der von Microsoft SQL Server ähnelt. Beide verwenden mit Transact SQL (T-SQL) denselben Microsoft-eigenen SQL-Dialekt und lassen sich von bekannten Tools wie dem SQL Server Management Studio (SSMS) aus bedienen. Das Microsoft-Angebot lässt sich im laufenden Betrieb skalieren und bei Bedarf pausieren. Allerdings gehen alle Abfragen verloren, die während einer Skalierung oder Pausierung abgesetzt werden.
Das Google-Data-Warehouse BigQuery basiert auf dem Abfragedienst Dremel, den das Unternehmen für seine eigenen Datenanalysen entwickelt hat. Nach Angaben des Anbieters liegt die Abfragezeit selbst bei Milliarden von Reihen bei kaum mehr als 10 oder 20 Sekunden, ohne dass eine Indizierung notwendig wäre. BigQuery unterstützt laut Google-Mitarbeiter Bussmann den SQL-Standarddialekt und ist leicht zu verwalten. „Daneben ist die von Google entwickelte KI führend in der Analyse und Nutzbarmachung der Daten“, erklärt der Regional Sales Lead DACH. BARC-Geschäftsführer Bange findet vor allem die Kombination von BigQuery mit dem Datenvorbereitungsdienst Cloud Dataprep interessant, der von dem Anbieter Trifacta betrieben wird.