AWS und Azure auf dem Prüfstand

Big Data mit Hadoop auf Microsoft Azure

Auch Microsoft baut den eigenen Marktplatz für Enter­prise-Software unter Hochdruck aus. Mit Azure machte sich Microsoft bereit, zu Amazon AWS aufzuschließen. Anders als AWS und seine übrigen Rivalen konnte der Softwareriese eine einzigartige Trumpfkarte aus dem Ärmel ziehen: die eigenen Softwarelizenzen mit den eigenen Cloud-Diensten kostengünstig zu bündeln und als optimierte Gesamtlösung anzubieten, um den Unternehmen die Nutzung von Azure schmackhaft zu machen.
Kostenrechner für Azure: Microsofts Bruch mit der Tradition unüberschau­barer Lizenzpreise fällt in der Cloud positiv auf.
Kostenrechner für Azure: Microsofts Bruch mit der Tradition unüberschau­barer Lizenzpreise fällt in der Cloud positiv auf.
Mit Features wie Azure Backup für bestehende Installationen von SQL Servern im unternehmenseigenen Datencenter konnte der Anbieter langjährige Nutzer seiner Produkte in die noch ziemlich unreife Cloud locken. Wo Microsofts eigenes Produktportfolio klaffende Lücken aufwies, nämlich unter anderem gerade im Bereich Big-Data-Verarbeitung, entschloss man sich dazu, das Kriegsbeil mit der Open Source-Gemeinde zu begraben. Nicht nur unterstützt Microsoft Azure GNU/Linux als Plattform, sondern bietet sogar unter dem Namen HDInsight eigene Hadoop-Dienste an, die sich via SQL-Server integrieren lassen.
Auf der diesjährigen Build Developer Conference stand das Thema Big Data ein weiteres Mal im Vordergrund. Kein Wunder, denn mit Big Data steht und fällt künftig der Erfolg eines Unternehmens. Microsofts aktuelle Hadoop-Implementierung beinhaltet die Dienste HDInsight und Azure Data Lake, das sich derzeit noch im Preview-Stadium befindet.

Hadoop als Dienst auf Azure

Mit HDInsight (zuvor AHoWA für Apache Hadoop on Windows Azure) bietet Microsoft eine Implementierung des quell­offenen Frameworks Hadoop zur Verarbeitung von Big Data als Dienst auf Microsoft Azure an. HDInsight basiert auf Hortonworks Data Platform (HDP), einer Hadoop-Distribution, die sich etwa auch auf die Zusammenarbeit mit SAP HANA versteht.
Modular und erweiterbar: YARN ist einer der wichtigsten Teile von Hadoop. Es handelt sich dabei eigentlich um eine Cluster-Verwaltungstechnik für Hadoop 2.x.
Modular und erweiterbar: YARN ist einer der wichtigsten Teile von Hadoop. Es handelt sich dabei eigentlich um eine Cluster-Verwaltungstechnik für Hadoop 2.x.
Unter anderem zeichnet sich HDInsight durch die Fähigkeit aus, im Terabyte- und Petabyte-Bereich bedarfsgerecht zu skalieren.
Außerdem bietet HDInsight die freie Wahl der Program­miersprache zur Erstellung und Steuerung von Hadoop-Aufträgen, einschließlich C#, Java und .NET. Das Besondere an HDInsight ist die Integration in Microsoft Excel zur Visualisierung der Resultate der Datenanalyse.
HDInsight kann unternehmenseigene Hadoop-Installationen im Datencenter an Azure anbinden, um bedarfsgerecht – und somit kostensenkend – skalieren zu können. Mit Hilfe benutzerdefinierter Skripte lassen sich nahezu beliebige Projekte integrieren und Erweiterungen nutzen, darunter Spark, R, Giraph und Solr.
HDInsight beinhaltet HBase, eine spaltenbasierte NoSQL-Datenbank auf der Basis von HDFS. Diese Integration ermöglicht die Umsetzung umfassender OLTP-Workloads mit nicht relationalen Daten. Typische Szenarien sind die Datenerfassung von Benutzerinteraktionen mit einer Webapplikation oder aus IoT-Sensoren direkt in Azure Blob-Speicher.
Microsofts uneingestandenes Motto „embrace and extend“ (im Deutschen etwa „annehmen und erweitern“) trägt offenbar Früchte, denn Microsofts Ökosystem an Big-Data-Lösungen hat in der letzten Zeit so einiges an Neuzugängen mit Wurzeln in der Open-Source-Gemeinde vorzuweisen, das vielversprechend scheint. So hat man nach dem Erfolg von HDInsight mit Azure Data Lake einen eigenen HDFS-Dienst vorgestellt.
Verwandte Themen