Big-Data-Analysen mit Google Cloud Dataflow

Intel-Statement zur Datenverarbeitung in der Cloud

von - 06.10.2014
„Fragen des Datenschutzes spielen bei der Entscheidung Online-Service versus eigene Installation eine große Rolle.“ - Alan Priestley, Cloud Services & Big Data Analytics Marketing Director EMEA, Intel, www.intel.de
Alan Priestley, Cloud Services & Big Data Analytics Marketing Director EMEA, Intel, www.intel.de
Intel betont die zentrale Rolle der Datensicherheit.
Serviceangebote wie Google Dataflow ergänzen die Big-Data-Analyse im eigenen Rechenzentrum, ersetzen sie aber nicht. Deshalb werden Lösungen wie Apache Hadoop weiterhin ihre Berechtigung haben und auch noch über Jahre hinweg fortentwickelt werden. Hadoop ist zudem kein fertiges Produkt, sondern ein Open-Source-Framework, das man vom Ansatz her mit Linux vergleichen könnte. Wie bei Linux kann man sich als Anwender aus den verfügbaren Modulen seine eigene Lösung zusammenstellen oder auf vorgefertigte Distributionen zurückgreifen, wie sie zum Beispiel Cloudera, Hortonworks oder MapR anbieten.

„Fragen des Datenschutzes spielen bei der Entscheidung Online-Service versus eigene Installation eine große Rolle.“

Map-Reduce ist zwar das bevorzugte Programmiermodell in Hadoop, aber längst nicht das einzige. Zudem gehören zur Big-Data-Analyse neben der eigentlichen Datenverarbeitung weitere Komponenten wie die Datenhaltung oder die Steuerung des Rechen-Clusters. Besonders wichtig ist uns die Frage der Datensicherheit. Das Ver- und Entschlüsseln sensibler Daten kann dabei nur auf den Cluster-Knoten direkt erfolgen, eine separate Appliance würde die Analyse erheblich behindern. Fragen des Datenschutzes spielen bei der Entscheidung Online-Service versus eigene Installation eine große Rolle. Genauso entscheidend ist meiner Ansicht nach allerdings auch, wo die Daten liegen, die analysiert werden sollen. Facebook-Aktivitäten, Twitter-Streams oder Online-Transaktionsdaten wertet man sinnvollerweise auch online aus. Informationen, die im eigenen Netzwerk anfallen, etwa bei der Machine-to-Machine-Kommunikation, müssten dagegen für eine Online-Analyse erst hochgeladen werden, was bei mehreren Hundert Gigabyte oder Terabyte ein erhebliches Problem darstellt.
Abschließend möchte ich zu bedenken geben: Die Frage, wo und mit welchen Algorithmen große Mengen unstrukturierter Daten analysiert werden sollen, ist meines Erachtens zweitrangig. Die eigentliche Kunst liegt darin, die richtigen Fragen zu stellen und aus den erzielten Ergebnissen die richtigen Schlüsse zu ziehen.
Verwandte Themen