Big-Data-Analysen - Das leisten Cloud-Services

Wichtige Begriffe für Big-Data-Analysen in der Cloud

von - 04.09.2015

Was ist was bei Big Data?

Diese Begriffe sollten Sie kennen, wenn Sie Big-Data-Analysen in der Cloud durchführen wollen.

Apache Ambari

Weboberfläche zur Installation, Verwaltung und Überwachung von Hadoop-Clustern.

Apache Giraph

Verfahren zur Berechnung komplexer Graphen-Analysen; Open-Source-Alternative zu Pregel (siehe dort).

Apache Drill

Open-Source-Framework zur interaktiven Analyse großer Datenbanken.

Apache Flume

Service zum Sammeln, Aggregieren und Transferieren großer Mengen an Log-Daten.

Apache Hive

Data-Warehouse-Infrastruktur, die SQL-ähnliche Abfragen im Hadoop-System erlaubt. Amazon setzt sie in seinem Webservice Elastic MapReduce ein.

Apache Hadoop

Umfangreiches Big-Data-Analyse-Framework; Bestandteile sind das Dateisystem HDFS (Hadoop Distributed File System), JobTracker und TaskTracker.

Apache Cassandra

Linear skalierbare, fehlertolerante Datenbank.

Apache Hbase

Datenbank zur Verwaltung großer Datenmengen in Hadoop.

Apache Kafka

Verteiltes Messaging-/Queuing-System.

Apache Mahout

Rechenumgebung für maschinelles Lernen.

Apache Oozie

Workflow-Management für Hadoop.

Apache Pig

Sprache (Pig Latin), in der sich MapReduce-Programme relativ einfach erstellen lassen.

Apache Solr

Hochskalierbare, fehlertolerante Suchmaschine für große Datenmengen.

Apache Sqoop

Tool zum Transfer großer Datenmengen zwischen Hadoop und einer Datenbank.

Apache Storm

System zur Echtzeitanalyse großer Datenmengen.

BigTable

Ein von Google entwickeltes Tabellensystem.

BigQuery

Webservice von Google zur interaktiven Analyse sehr großer Datenmengen.

Dremel

Verteiltes System für interaktive Abfragen auf großen Datenmengen. Dremel bildet die Basis von Googles Service BigQuery.

Dryad

Von Microsoft entwickeltes Programmiermodell, das bei Big-Data-Analysen Ressourcenverteilung, Optimierung paralleler Rechenprozesse, Fehlertoleranz und Datenverteilung übernimmt. Wird nicht weiterentwickelt.

Dataflow

Big-Data-Service, der die Analyse großer Datenmengen sowohl im Batch-Modus als auch im Streaming-Modus (nahezu in Echtzeit) erlaubt.

Pub/Sub

Kommunikationskanal, der Eingabe-Streams verschiedenster Herkunft mit Ausgabe-Streams verknüpfen kann.

HDFS

Hadoop Distributed File System: Dateisystem für Hadoop, verteilt Daten blockweise über den Cluster.

Hue

Weboberfläche zur Analyse und Visualisierung von Daten auf Hadoop über einen Browser.

Impala

Von Cloudera entwickelte Alternative zu Apache Hive.

MapReduce

Programmiermodell, das die parallele Berechnung auf verteilten Systemen und über große Datenmengen erlaubt.

MongoDB

Hochskalierbare, ausfallsichere Open-Source-Datenbank. Einträge werden als Dokumente (Feld-Wert-Paare) gespeichert.

MPI

Message Passing Interface: Standardisiertes und in verschiedene Programmiersprachen portierbares System zur Kommunikation in parallelen Computerumgebungen.

Pregel

Von Google entwickeltes Verfahren zur Berechnung großer Graphen-Modelle, wie sie beispielsweise bei der Analyse von Social-Media-Daten verwendet werden.

Presto

Verteilte SQL-Query-Engine für interaktive Analysen auf großen Datenmengen.

Redis

In-Memory-Datenbank; einfache Struktur, dafür sehr schnell.

Sentry

Von Cloudera entwickeltes Sicherheitssystem, das abgestufte Zugangsrechte zu den Daten in einem Hadoop-Cluster ermöglicht.

YARN

Yet Another Resource Negotiator: Trennt das Ressourcen-Management von den eigentlichen Applikationen. So lassen sich neben MapReduce andere Analysen wie MPI, Graph-Berechnungen oder Streaming-Services durchführen, ohne die Datenbank anpassen zu müssen.

Verwandte Themen