Große Datenmengen

Big-Data-Analysen mit Google Cloud Dataflow

von - 06.10.2014
Googles Big-Data-Dienst Cloud Dataflow erleichtert die Analyse umfangreicher Datenmengen. Der Dienst richtet sich auch an kleine und mittlere Unternehmen.
Googles Big-Data-Dienst Cloud Dataflow erleichtert die Analyse umfangreicher Datenmengen. Der Dienst richtet sich auch an kleine und mittlere Unternehmen.
Ende Juni 2014 stellte Google auf der Entwicklerkonferenz Google I/O erstmals seinen neuen Managed Service Google Cloud Dataflow vor. Der Dienst richtet sich an Unternehmen jeder Größe, die große, vor allem online generierte  Datenmengen analysieren und sich dabei keine Gedanken über die verwendete Infrastruktur machen wollen. Cloud Dataflow soll vor allem diese Aufgaben erleichtern:
  • Integration von Daten aus verschiedenen Quellen und deren Vorbereitung für weitere Analysen
  • Echtzeitanalyse von Datenströmen, um etwa verdächtige Muster oder Aktivitäten feststellen zu können
  • Mehrstufige Berechnungen zur vertieften Analyse
Fast alle Unternehmen werten Daten aus: Neun von zehn Unternehmen werten Stamm-, Transaktions- und andere Daten IT-gestützt aus.
Fast alle Unternehmen werten Daten aus: Neun von zehn Unternehmen werten Stamm-, Transaktions- und andere Daten IT-gestützt aus.
Cloud Dataflow eignet sich etwa für die Marketingabteilung, die Twitter- oder Facebook-Streams auswerten will, für den Online-Shop oder die Bank, die Betrugs- oder Phishing-Attacken anhand von Verhaltensmerkmalen finden möchte, oder für IT-Verantwortliche, die aus den Log-Files eines Rechenzentrums Muster herausfiltern wollen. Mit Cloud-Diensten wie Google Cloud Dataflow werden diese Berechnungen auch für kleinere Unternehmen erschwinglich.

Optimierte Analysen in der Cloud

Dataflow kann parallele Daten-Pipelines erzeugen, verarbeiten, transformieren und analysieren, und das sowohl im Batch- als auch im Streaming-Modus. Programmcode und Ressourcen sollen dabei automatisch optimiert, zur Verfügung gestellt und verwaltet werden. Die eigentliche Berechnung erfolgt transparent im Hintergrund. Dataflow holt sich automatisch die Ressourcen und verteilt die Jobs, sodass die Analyse optimiert ablaufen kann.
Da sich der Service derzeit noch im Beta-Stadium befindet, gibt es keine genauen Aussagen über die Performance oder gar ausformulierte Service Level Agreements (SLA). Auf der Entwicklerkonferenz war aber von „wenigen Sekunden“ Latenz bei Streaming-Anfragen die Rede. Auch wenn alle Prozesse automatisch ablaufen, hat der Nutzer die Möglichkeit, sich per SSH (Secure Shell) mit den Servern beziehungsweise den virtuellen Maschinen zu verbinden und die Rechenvorgänge einzusehen.
„Cloud Dataflow macht es Anwendern einfach, geschäftskritische Informationen aus ihren Daten zu gewinnen, und das mit niedrigeren operativen Kosten und ohne den Aufwand, eine eigene Infrastruktur aufbauen, verwalten und skalieren zu müssen“, schreibt Greg DeMichillie vom Google Platform Team im Developers Blog des Unternehmens. Preise hat Goo­gle für Cloud Dataflow noch nicht veröffentlicht.
Verwandte Themen