Big-Data-Analysen - Das leisten Cloud-Services

Big Data bei Amazon und Google

von - 04.09.2015
Rechenleistung und Speicher für Big Data nach dem IaaS-Modell bieten viele Cloud-Provider. Der bekannteste dürfte Amazon mit seinen Web Services (AWS) sein. Eine Hadoop-Instanz lässt sich auf Knoten der Elastic Compute Cloud (EC2) einrichten, zur Speicherung der Initialdaten nutzt man sinnvollerweise Amazon S3, da der Datentransfer zwischen S3 und EC2 kostenlos ist. Dort legt man auch die Ergebnisse ab, bevor der Cluster heruntergefahren wird. Temporäre Daten hält man dagegen besser im Hadoop Distributed File System (HDFS) vor.
Jens Bussmann, Cloud Platform Lead DACH & CEE, Google
Jens Bussmann, Cloud Platform Lead DACH & CEE, Google: „Die Cloud ist die bei Weitem beste Möglichkeit für Big-Data-Analysen.“
Hadoop lässt sich manuell auf EC2 installieren, was allerdings sehr viel Erfahrung voraussetzt. Eine Anleitung dazu findet sich im Apache Wiki. Wer es einfacher haben will, kann Amazons eigenen Big-Data-Service Elastic MapReduce nutzen (EMR). Die dort verfügbaren AMIs (Amazon Machine Image) enthalten bereits ein bootfähiges Linux-Betriebssystem, Hadoop und weitere Software, die zum Betrieb des Clusters notwendig ist. Das aktuelle AMI Version 3.8.0 unterstützt neben Hadoop auch Hive, Hue, Pig, Hbase, Impala, Mahout und Spark (siehe dazu auch „Was ist was bei Big Data?“). Big-Data-Spezialisten wie Cloudera, Hortonworks und der kürzlich von HDS übernommene Business-Intelligence-Spezialist Pentaho bieten ihre Distributionen ebenfalls auf EC2 an. So lässt sich mit Hilfe von Cloudera Director und einer Schnellstartvor lage von AWS der Cloudera Enterprise Data Hub (EDH) auf zwölf Cluster-Knoten nach Angaben von Amazon in nur 30 Minuten aufsetzen. Hortonworks Data Platform (HDP) ist mittels Apache Ambari ebenfalls recht schnell und einfach auf EC2 implementiert. Die Pentaho-Plattform nutzt neben EC2 das Amazon-eigene Data Warehouse Redshift und kann EMR oder andere gehostete Hadoop-Distributionen integrieren.

Big-Data-Services bei Google

Google bietet eine ganze Reihe von Big-Data-Services an, teils auf Basis von Open-Source-Lösungen, teils eigenständige Entwicklungen wie BigQuery oder Dataflow. Mit Click-to-deploy Hadoop on Google Compute Engine verspricht der Anbieter eine Installation des Big-Data-Frameworks in wenigen Minuten. Alles, was man nach Angaben des Providers dazu benötigt, sind ein Google Cloud Storage Bucket und ein paar Angaben zur Konfiguration. Optional lässt sich noch das Cloud SDK installieren, um per Kommandozeile auf die Hadoop-Instanzen zugreifen zu können. Weitere Big-Data-Lösungen liegen fertig vor und lassen sich einfach installieren, so etwa Cassandra, Elasticsearch, MongoDB und Redis. Gleich drei Varianten hat der Provider für die Echtzeitanalyse im Angebot: Die erste ist eine Kombination aus dem Cluster-Manager Kubernetes, der In-Memory-Datenbank Redis und dem Abfragesystem BigQuery. In der zweiten Variante können Anwender Kubernetes und BigQuery mit Pub/Sub verknüpfen, einem Real-Time-Messaging-System.
Für Logging-Zwecke lässt sich BigQuery auch noch mit dem Open-Source-Datensammler Fluentd kombinieren.
Im vergangenen Jahr hat Google außerdem den Big-Data-Service Cloud Dataflow gestartet, der sich derzeit noch im Beta-Stadium befindet. Google Cloud Dataflow erlaubt die Analyse großer Datenmengen sowohl im Batch- als auch im Streaming-Modus nahezu in Echtzeit. Der Code ist für beide Methoden gleich, die Entscheidung trifft der Entwickler durch die Wahl der Datenquelle. Die Programmierung ist sehr einfach. Für die Analyse muss ein Entwickler die logischen Schritte nur in eine Sequenz einfacher Befehle übersetzen. Um zum Beispiel ein Zeitfenster für eine Streaming-Analyse zu definieren, genügt eine Zeile Code. Google verspricht außerdem eine Skalierbarkeit bis in den Exabyte-Bereich und eine nahtlose Integration in andere Systeme. „Dataflow ist als Pipelining- und Management-Technologie für ein großes Spektrum an Big Data-Diensten und -Applikationen verfügbar“, sagt Jens Bussmann von Google.
Verwandte Themen