Kostengünstige Datenanalyse für Fachbereiche

Hadoop-Cluster erfordern wenig Spezialwissen

von Oliver Ehm - 29.12.2015

Im Prinzip lassen sich alle Aufgaben, die berechenbar sind, durch den Einsatz von Hadoop-Clustern meistern. Eine der Möglichkeiten dabei ist, den dazu geeigneten Java-Programmcode zu erstellen. Manchmal ist das entsprechende Know-how in den Fachbereichen vorhanden. Ansonsten bieten IT-Dienstleister, beispielsweise CGI, Accenture, adesso, Capgemini oder msg Systems, die notwendige Unterstützung.

Unterschiedliche Big-Data-Lösungen: Hadoop unterteilt sich in Projekte, Distributionen und Big-Data-Suiten. Unterschiede gibt es bei Support, Funktionsumfang und Bedienkomfort.

Als weitere Möglichkeit empfiehlt sich der Einsatz der prozeduralen Hadoop-Erweiterung Apache Pig. Sie wurde 2006 von Yahoo entwickelt, um nicht hauptberuflichen Programmierern die Arbeit mit Hadoop zu erleichtern. Einen wesentlichen Beitrag dazu liefert die Skriptsprache Pig Latin. Sie soll, ähnlich wie dies die Office-Makrosprache VBA oder die Statistiksprache R in anderen Anwendungsszenarien getan haben, IT-affinen Mitarbeitern aus den Fachbereichen den Einstieg und den weiteren Einsatz von Hadoop leichter machen. Pig Latin beschreibt die Verarbeitungsschritte, die das Pig-
Latin-Framework dann in MapReduce-Jobs überführt.

Noch eine Option bietet Oracle Big Data SQL. Mit einer einzelnen Abfrage ist es damit möglich, auf Daten in relationalen Databases, in NoSQL-Datenbanken und in Hadoop zuzugreifen.

Hadoop-Einsatzbeispiele

Hadoop ist kein Ersatz für eine Data-Warehouse-Umgebung, wie sie von der IT-Abteilung betrieben, gepflegt und weiterentwickelt wird. Vielmehr ergänzt Hadoop die Data Warehouses. Während diese den strikten Regeln und Vorgaben einer unternehmensweiten IT-Governance folgen müssen, bietet eine Hadoop-Implementierung in einem Fachbereich mehr Spielräume in einer abgegrenzten Laborumgebung. Hier geht es traditionell um Exploration und interaktives Lernen.

Data Warehouse mit Hadoop-Cluster: Hadoop kombiniert mit einer NoSQL-Datenbank ist kein Ersatz für die klassische Data-Warehouse-Umgebung, sondern stellt vielmehr eine sinnvolle Ergänzung und Erweiterung für die Verarbeitung großer Datenmengen dar.

So kann etwa ein Mobilfunkanbieter Netzwerkdaten auswerten, um die Service-Qualität in solchen Regionen zu verbessern, in denen es überdurchschnittlich hohe Kundenabwanderungen gab. Die Aufgabe hier ist, Maßnahmen zu entwickeln und zu testen, um die Kundenbindungsrate zu steigern.

Im Bereich der Vertriebsförderung analysiert ein Automobilhersteller die Daten aus dem Pkw-Konfigurator im Web. Die Ergebnisse dienen als Grundlage, um gemeinsam mit Händlern die Verkaufsquote zu erhöhen. Die für Service zuständige Abteilung des Automobilherstellers wertet Daten zu Garantiefällen aus. Da es in der Vergangenheit deutliche Kritik von Kunden gab, die sich auch in verschiedenen Webforen widerspiegelte, ist es Aufgabe des Projekts, Lösungen zu finden, um die Produktqualität gezielt zu verbessern.

In all diesen Anwendungsszenarien unterstützt Hadoop die Fachbereiche dabei, das vorhandene, eher gering strukturierte Datenmaterial mit Hilfe von Hypothesen auszuwerten und Lösungsansätze zu entwickeln, die dann getestet, weiterentwickelt oder wieder verworfen werden.

Zeigt sich im Lauf der Zeit, dass sich daraus standardisierte Verfahren und Prozesse ergeben, finden sie Eingang in die IT-Governance. Dann ist die IT-Abteilung dafür zuständig.

Seite

Kostengünstige Datenanalyse für Fachbereiche

Hadoop-Cluster erfordern wenig Spezialwissen

Hadoop-Einsatzbeispiele

Mehr zum Thema