Big-Data-Analysen mit Google Cloud Dataflow

IBM-Statement zur Datenverarbeitung in der Cloud

von Thomas Hafen - 06.10.2014

„Cloud-Service und Installationen im eigenen Rechenzentrum werden beide auch zukünftig ihre Berechtigung haben.“ - Stephan Reimann, Leading IT Specialist Big Data, IBM Deutschland, www.ibm.de

Stephan Reimann, Leading IT Specialist Big Data, IBM Deutschland, www.ibm.de

Big Blue setzt auf Open-Source-Initiativen.

Map-Reduce war schon immer für spezielle Aufgaben gedacht, nämlich komplexe Berechnungen auf sehr großen Datenmengen durchzuführen. Beispiele sind der Aufbau von Such-Indizes oder die Aufbereitung von großen Bilddatenbanken in der Röntgendiagnostik. Das Modell ist deshalb vom Grunddesign auf den Bereich Analytik fokussiert, nicht auf Echtzeit- oder Transaktionsverarbeitung.

Wir bei IBM entwickeln Map-Reduce schon eine ganze Weile weiter und adressieren zum Beispiel in unserer eigenen Hadoop-Distribution mit Adaptive Map-Reduce eine der Schwächen der ursprünglichen Implementierung, nämlich das Thema Scheduling, das heißt die Vergabe von Time Slots an einzelne Aufgaben. Es gibt aber auch Anwendungen, für die Map-Reduce einfach ungeeignet ist, etwa die Echtzeitanalyse. Dafür haben wir mit Info Sphere Streams ein eigenes Produkt im Angebot.

„Cloud-Service und Installationen im eigenen Rechenzentrum werden beide auch zukünftig ihre Berechtigung haben.“

Im Open-Source-Bereich gibt es zwei wesentliche Initiativen, die die Schwächen von Hadoop adressieren. Die eine ist YARN (Yet Another Resource Negotiator), die Map-Reduce nicht ablöst, sondern flexibler macht. IBM hat für YARN bereits seine Unterstützung angekündigt. Die zweite Initiative, die derzeit viel Aufmerksamkeit bekommt, ist Spark, ein Ansatz, Streaming- und Batch-Anwendungen zu mischen. Erst vor Kurzem haben wir unsere Unterstützung auch für dieses Open-Source-Projekt angekündigt.

Was die Frage Cloud-Service oder Installation im eigenen Rechenzentrum angeht, so sind wir davon überzeugt, dass beide Modelle auch zukünftig ihre Berechtigung haben werden, je nachdem wo die Daten anfallen und wie die Sicherheitsanforderungen sind. Entscheidend ist unserer Ansicht nach, dass ein einfacher Wechsel zwischen den Modellen möglich ist. So kann ein Unternehmen beispielsweise Big-Data-Anwendungen in der Cloud entwickeln und testen, den Produktivbetrieb dann aber ohne größere Anpassungen auf eigenen Systemen durchführen.

Seite

Big-Data-Analysen mit Google Cloud Dataflow

IBM-Statement zur Datenverarbeitung in der Cloud

„Cloud-Service und Installationen im eigenen Rechenzentrum werden beide auch zukünftig ihre Berechtigung haben.“

Mehr zum Thema