Big-Data-Analysen - Das leisten Cloud-Services

Wichtige Begriffe für Big-Data-Analysen in der Cloud

von Thomas Hafen - 04.09.2015

Was ist was bei Big Data?
Diese Begriffe sollten Sie kennen, wenn Sie Big-Data-Analysen in der Cloud durchführen wollen.
Apache Ambari	Weboberfläche zur Installation, Verwaltung und Überwachung von Hadoop-Clustern.
Apache Giraph	Verfahren zur Berechnung komplexer Graphen-Analysen; Open-Source-Alternative zu Pregel (siehe dort).
Apache Drill	Open-Source-Framework zur interaktiven Analyse großer Datenbanken.
Apache Flume	Service zum Sammeln, Aggregieren und Transferieren großer Mengen an Log-Daten.
Apache Hive	Data-Warehouse-Infrastruktur, die SQL-ähnliche Abfragen im Hadoop-System erlaubt. Amazon setzt sie in seinem Webservice Elastic MapReduce ein.
Apache Hadoop	Umfangreiches Big-Data-Analyse-Framework; Bestandteile sind das Dateisystem HDFS (Hadoop Distributed File System), JobTracker und TaskTracker.
Apache Cassandra	Linear skalierbare, fehlertolerante Datenbank.
Apache Hbase	Datenbank zur Verwaltung großer Datenmengen in Hadoop.
Apache Kafka	Verteiltes Messaging-/Queuing-System.
Apache Mahout	Rechenumgebung für maschinelles Lernen.
Apache Oozie	Workflow-Management für Hadoop.
Apache Pig	Sprache (Pig Latin), in der sich MapReduce-Programme relativ einfach erstellen lassen.
Apache Solr	Hochskalierbare, fehlertolerante Suchmaschine für große Datenmengen.
Apache Sqoop	Tool zum Transfer großer Datenmengen zwischen Hadoop und einer Datenbank.
Apache Storm	System zur Echtzeitanalyse großer Datenmengen.
BigTable	Ein von Google entwickeltes Tabellensystem.
BigQuery	Webservice von Google zur interaktiven Analyse sehr großer Datenmengen.
Dremel	Verteiltes System für interaktive Abfragen auf großen Datenmengen. Dremel bildet die Basis von Googles Service BigQuery.
Dryad	Von Microsoft entwickeltes Programmiermodell, das bei Big-Data-Analysen Ressourcenverteilung, Optimierung paralleler Rechenprozesse, Fehlertoleranz und Datenverteilung übernimmt. Wird nicht weiterentwickelt.
Dataflow	Big-Data-Service, der die Analyse großer Datenmengen sowohl im Batch-Modus als auch im Streaming-Modus (nahezu in Echtzeit) erlaubt.
Pub/Sub	Kommunikationskanal, der Eingabe-Streams verschiedenster Herkunft mit Ausgabe-Streams verknüpfen kann.
HDFS	Hadoop Distributed File System: Dateisystem für Hadoop, verteilt Daten blockweise über den Cluster.
Hue	Weboberfläche zur Analyse und Visualisierung von Daten auf Hadoop über einen Browser.
Impala	Von Cloudera entwickelte Alternative zu Apache Hive.
MapReduce	Programmiermodell, das die parallele Berechnung auf verteilten Systemen und über große Datenmengen erlaubt.
MongoDB	Hochskalierbare, ausfallsichere Open-Source-Datenbank. Einträge werden als Dokumente (Feld-Wert-Paare) gespeichert.
MPI	Message Passing Interface: Standardisiertes und in verschiedene Programmiersprachen portierbares System zur Kommunikation in parallelen Computerumgebungen.
Pregel	Von Google entwickeltes Verfahren zur Berechnung großer Graphen-Modelle, wie sie beispielsweise bei der Analyse von Social-Media-Daten verwendet werden.
Presto	Verteilte SQL-Query-Engine für interaktive Analysen auf großen Datenmengen.
Redis	In-Memory-Datenbank; einfache Struktur, dafür sehr schnell.
Sentry	Von Cloudera entwickeltes Sicherheitssystem, das abgestufte Zugangsrechte zu den Daten in einem Hadoop-Cluster ermöglicht.
YARN	Yet Another Resource Negotiator: Trennt das Ressourcen-Management von den eigentlichen Applikationen. So lassen sich neben MapReduce andere Analysen wie MPI, Graph-Berechnungen oder Streaming-Services durchführen, ohne die Datenbank anpassen zu müssen.

Seite

Big-Data-Analysen - Das leisten Cloud-Services

Wichtige Begriffe für Big-Data-Analysen in der Cloud

Mehr zum Thema