AWS und Azure auf dem Prüfstand

Big Data in der Cloud auf AWS und Azure

Wer Big Data in der Cloud auswerten und aufbewahren möchte, kann verwaltete Dienste nutzen oder Infrastrukturdienste in Eigenregie einrichten. Soll etwa Hadoop das Kernstück des Big-Data-Deployments sein, dann bietet sich auf AWS der verwaltete Dienst EMR (Elastic MapReduce) an. Alternativ lässt sich Apache Hadoop auf EC2/VPC und S3 selbst aufsetzen und dann auch selbst administrieren. Auch Azure unterstützt beide Ansätze.
Martin Geier, Managing Director AWS Deutschland
Martin Geier, Managing Director AWS Deutschland: „Die Kunden bestimmen genau den Ort, wo ihre Daten gespeichert werden. (…) Der Kunde ist jederzeit Herr seiner Daten.“
Bei den vollständig verwalteten Diensten wie AWS EMR oder Azure HDInsight übernimmt der jeweilige Cloud-Anbieter die Verantwortung für deren Verfügbarkeit und die Datensicherung im Rahmen der Service-Garantie. Die Nutzung verwalteter Dienste empfiehlt sich aus diesem Grund vor allem für Unternehmen, die sich mit dem Administrieren der Infrastruktur nicht befassen möchten.

Verwaltete Dienste

Verwaltete Dienste rund um Big Data auf AWS beinhalten folgende Module:
Redshift: Hierbei handelt es sich um ein Cluster-basiertes Data Warehouse in massiv paralleler Architektur mit Fähigkeiten zur Selbstheilung und bedarfsgerechter Skalierung. Dank seiner Unterstützung für verteilte SQL-Operationen integriert sich Redshift mit bestehenden BI-Werkzeugen, sofern diese zu SQL kompatibel sind. Typische Anwendungsszenarien beinhalten etwa die Analyse der Seitenaufrufe und Klickströme oder die Auswertung historischer Daten aus Finanzmärkten oder Vertriebskanälen.
Kinesis: Die Echtzeit-Handhabung von Big-Data-Datenströmen übernimmt der Dienst Kinesis. Kinesis bezieht Daten aus einem Langzeitspeicher wie S3 oder Redshift, stellt sie für eine beschränkte Zeit zur Analyse bereit und legt sie danach wieder in einem Langzeitspeicher ab.
Echtzeitanalyse von Sensordaten in der Cloud: Big-Data-Datenanalyseworkflows auf AWS setzen sich aus vielen kleinen Puzzleteilchen zusammen
Echtzeitanalyse von Sensordaten in der Cloud: Big-Data-Datenanalyseworkflows auf AWS setzen sich aus vielen kleinen Puzzleteilchen zusammen
(Quelle: Amazon Web Services)
Zu den Highlights des Dienstes zählen seine Fähigkeiten im Hinblick auf die automatische Lastverteilung und die Fehlertoleranz. Typische Anwendungsszenarien beinhalten Echzeit-Datenanalyse und Echtzeit-Berichterstattung anhand ad hoc generierter KPIs.
EMR (Elastic MapReduce): EMR ist Amazons eigene Implementierung von Hadoop als vollständig verwalteter Dienst. Der Service unterstützt alle üblichen Tools für Hadoop einschließlich Hive (ein Data Warehouse), Pig, Spark, HBase, Hunk und Impala; der Anwender kann weitere Softwarelösungen in das Ökosystem einbinden. Zusätzlich zu Hadoops eigenem verteilten Dateisystem HDFS werden zur weiteren Kostensenkung nativer S3-Speicher von Amazon und EMRFS (Elastic Map Reduce File System) unterstützt (empfehlenswert vor allem für historische Datenbestände). Typische Anwendungsszenarien für EMR sind die Verarbeitung von Log-Dateien, ETL-Transaktionen, die Analyse von Klickströmen und Risikomodellierung.
DynamoDB: Bei DynamoDB handelt es sich um Amazons eigenen NoSQL-Datenspeicher, den Amazon als vollständig verwalteten Dienst bereitstellt. DynamoDB kann sowohl Dokumente als auch Schlüssel-Wert-Paare erfassen. Typische Szenarien sind die Aufbewahrung von Daten aus IoT-Sensoren sowie Web und Mobile Analytics.
Temperaturüberwachung: Der Ablauf der Datenerfassung aus Sensoren in einem Honigbienenstock illustriert praktische Anwendbarkeit von Big-Data-Datenströmen im IoT-Zeitalter
Temperaturüberwachung: Der Ablauf der Datenerfassung aus Sensoren in einem Honigbienenstock illustriert praktische Anwendbarkeit von Big-Data-Datenströmen im IoT-Zeitalter
(Quelle: Amazon Web Services)
RDS Aurora: Aurora, der jüngste Neuzugang zu den insgesamt fünf SQL-basierten relationalen Datenbankdiensten (RDS) auf AWS verspricht eine bis zu fünffach höhere Leistung für ein Zehntel der üblichen Zusatzkosten gegenüber bewährten RDS-Rivalen. Aurora ist parallel, verteilt und asynchron. Der Dienst skaliert den eigenen Speicher automatisch im Verhältnis zum Wachstum des Datenvolumens und kann Daten während der Übertragung zwischen den Knoten des eigenen Clusters automatisch verschlüsseln. Viele Anwender ziehen Aurora aus diesem Grund in die engere Wahl bei der Umsetzung ihrer Big-Data-Initiativen. Allerdings ist einigen nicht bewusst, dass Amazon Teile der Aurora-Installation zur Kostensenkung in einer Mehrbenutzerumgebung ausführt. Das könnte Aurora für den Einsatz bei besonders anspruchsvollen Sicherheitsanforderungen disqualifizieren.
AWS Machine Learning: Big Data hat nur dann einen messbaren Wert, wenn sich daraus umsetzbare Erkenntnisse gewinnen lassen. Helfen soll künstliche Intelligenz, die Krönung prädiktiver Datenanalyse. Auch für diesen Einsatzzweck hat Amazon bereits einen Dienst parat: AWS Machine Learning zur Entwicklung von Prognosen, für die Personalisierung von Angeboten und die maschinelle Auswertung von Dokumenten in der Cloud.
Die Handhabung von Big Data auf AWS erfordert typischerweise die Nutzung verschiedener weiterer Dienste wie beispielsweise Data Pipeline für die zeitgesteuerte Datenübertragung zwischen Diensten mit Möglichkeiten zur Integration mit einem externen Datencenter oder Lambda für die Ereignisüberwachung. Business-Intelligence-Software ist praktisch auch nur einen Klick entfernt. Auf Amazon Marketplace gibt es sie als fertig installierte Maschinen-Images.
Verwandte Themen