Big-Data-Analysen mit Google Cloud Dataflow
RDD und Spark als Big-Data-Alternativen
von Thomas Hafen - 06.10.2014
Google Cloud Dataflow ist nicht die einzige Initiative, die die Beschränkungen von Map-Reduce aufheben will, sagt Tony Baer, Principal Analyst und Big-Data-Experte beim Marktforschungsunternehmen Ovum: „Die Community ist sehr viel größer geworden und es tauchen immer mehr Alternativen auf.“

„Es tauchen immer mehr Alternativen zu Map-Reduce auf.“ - Tony Baer, Principal Analyst, Ovum, www.ovum.com
RDDs sind verteilte, schreibgeschützte Daten, die durch Transformationen aus Ursprungsinformationen oder anderen RDDs entstehen. Das Modell ermöglicht es, fehlertolerant Berechnungen auf großen Clustern durchzuführen. Es hat außerdem dann erhebliche Vorteile, wenn die Daten zur Berechnung im RAM der beteiligten Computer vorgehalten werden, der Flaschenhals des Lesens und Schreibens auf Festplatten oder SSDs also eliminiert wird. Diese sogenannten In-Memory-Systeme erzielen bei bestimmten Analysen enorme Geschwindigkeitsgewinne gegenüber einer herkömmlichen Implementierung von Apache Hadoop mit Map-Reduce und Datenzugriff über das Hadoop Distributed File System (HDFS).
Laut Zaharia können RDDs beziehungsweise Spark die Berechnung logistischer Regressionen gegenüber Apache Hadoop um das bis zu 25-Fache beschleunigen. Die interaktive In-Memory-Datenanalyse mit Spark erzielt im Vergleich zu diskbasierten Systemen ähnliche Geschwindigkeitsvorteile.
Wer wird sich durchsetzen?

(Quelle: com! professional / Bitkom)
Allerdings besteht die Herausforderung bei Big Data nicht so sehr darin, das Datenmodell zu programmieren, sondern die richtigen Fragen zu stellen und die erzielten Ergebnisse interpretieren zu können. Dafür sind auch zukünftig etwas mehr als drei Zeilen Code notwendig.
Ob ein Unternehmen Services wie Google Cloud Dataflow sinnvoll einsetzen kann, hängt auch davon ab, wo die Daten herkommen. Die Analyse in der Cloud bietet sich immer dann an, wenn die Informationen ohnehin online generiert werden. Dies ist zum Beispiel bei Facebook-Posts, Twitter-Feeds oder Transaktionen in einem Online-Shop der Fall.
Für Offline-Daten ist Apache Hadoop sicher auch zukünftig die bessere Alternative, zumal die Programmierschnittstelle Spark viele Einschränkungen von Map-Reduce aufhebt.