Big-Data-Analysen mit Google Cloud Dataflow

RDD und Spark als Big-Data-Alternativen

von Thomas Hafen - 06.10.2014

Google Cloud Dataflow ist nicht die einzige Initiative, die die Beschränkungen von Map-Reduce aufheben will, sagt Tony Baer, Principal Analyst und Big-Data-Experte beim Marktforschungsunternehmen Ovum: „Die Community ist sehr viel größer geworden und es tauchen immer mehr Alternativen auf.“

„Es tauchen immer mehr Alternativen zu Map-Reduce auf.“ - Tony Baer, Principal Analyst, Ovum, www.ovum.com

Das derzeit vielversprechendste und meistdiskutierte Modell haben Matei Zaharia et al. 2012 vorgestellt: „Resilient Distributed Datasets“ (RDD) und die dafür eigens geschaffene Programmierschnittstelle Spark. „Spark bietet einen neuen Berechnungsansatz für Map-Reduce-artige, mehrstufige Analysen, der den I/O-Overhead massiv reduzieren oder sogar eliminieren kann“, so Ovum-Analyst Baer.

RDDs sind verteilte, schreibgeschützte Daten, die durch Transformationen aus Ursprungsinformationen oder anderen RDDs entstehen. Das Modell ermöglicht es, fehlertolerant Berechnungen auf großen Clustern durchzuführen. Es hat außerdem dann erhebliche Vorteile, wenn die Daten zur Berechnung im RAM der beteiligten Computer vorgehalten werden, der Flaschenhals des Lesens und Schreibens auf Festplatten oder SSDs also eliminiert wird. Diese sogenannten In-Memory-Systeme erzielen bei bestimmten Analysen enorme Geschwindigkeitsgewinne gegenüber einer herkömmlichen Implementierung von Apache Hadoop mit Map-Reduce und Datenzugriff über das Hadoop Distributed File System (HDFS).

Laut Zaharia können RDDs beziehungsweise Spark die Berechnung logistischer Regressionen gegenüber Apache Hadoop um das bis zu 25-Fache beschleunigen. Die interaktive In-Memory-Datenanalyse mit Spark erzielt im Vergleich zu diskbasierten Systemen ähnliche Geschwindigkeitsvorteile.

Wer wird sich durchsetzen?

12 % des IT-Budgets verwenden Unternehmen in Deutschland für Big Data Quelle: Bitkom

(Quelle: com! professional / Bitkom)

Wenn der Big-Data-Dienst Cloud Dataflow hält, was Google verspricht, dann wird er zu einer deutlichen Demokratisierung führen – und dazu, dass sich die Analyse extrem großer Datenmengen verbreitet.

Allerdings besteht die Herausforderung bei Big Data nicht so sehr darin, das Datenmodell zu programmieren, sondern die richtigen Fragen zu stellen und die erzielten Ergebnisse interpretieren zu können. Dafür sind auch zukünftig etwas mehr als drei Zeilen Code notwendig.

Ob ein Unternehmen Services wie Google Cloud Dataflow sinnvoll einsetzen kann, hängt auch davon ab, wo die Daten herkommen. Die Analyse in der Cloud bietet sich immer dann an, wenn die Informationen ohnehin online generiert werden. Dies ist zum Beispiel bei Facebook-Posts, Twitter-Feeds oder Transaktionen in einem Online-Shop der Fall.

Für Offline-Daten ist Apache Hadoop sicher auch zukünftig die bessere Alternative, zumal die Programmierschnittstelle Spark viele Einschränkungen von Map-Reduce aufhebt.

Weitere Infos

Seite

Big-Data-Analysen mit Google Cloud Dataflow

RDD und Spark als Big-Data-Alternativen

Wer wird sich durchsetzen?

Weitere Infos

Mehr zum Thema