Big-Data-Analysen - Das leisten Cloud-Services
Wichtige Begriffe für Big-Data-Analysen in der Cloud
Was ist was bei Big Data? |
|
Diese Begriffe sollten Sie kennen, wenn Sie Big-Data-Analysen in der Cloud durchführen wollen. |
|
Weboberfläche zur Installation, Verwaltung und Überwachung von Hadoop-Clustern. |
|
Verfahren zur Berechnung komplexer Graphen-Analysen; Open-Source-Alternative zu Pregel (siehe dort). |
|
Open-Source-Framework zur interaktiven Analyse großer Datenbanken. |
|
Service zum Sammeln, Aggregieren und Transferieren großer Mengen an Log-Daten. |
|
Data-Warehouse-Infrastruktur, die SQL-ähnliche Abfragen im Hadoop-System erlaubt. Amazon setzt sie in seinem Webservice Elastic MapReduce ein. |
|
Umfangreiches Big-Data-Analyse-Framework; Bestandteile sind das Dateisystem HDFS (Hadoop Distributed File System), JobTracker und TaskTracker. |
|
Linear skalierbare, fehlertolerante Datenbank. |
|
Datenbank zur Verwaltung großer Datenmengen in Hadoop. |
|
Verteiltes Messaging-/Queuing-System. |
|
Rechenumgebung für maschinelles Lernen. |
|
Workflow-Management für Hadoop. |
|
Sprache (Pig Latin), in der sich MapReduce-Programme relativ einfach erstellen lassen. |
|
Hochskalierbare, fehlertolerante Suchmaschine für große Datenmengen. |
|
Tool zum Transfer großer Datenmengen zwischen Hadoop und einer Datenbank. |
|
System zur Echtzeitanalyse großer Datenmengen. |
|
Ein von Google entwickeltes Tabellensystem. |
|
Webservice von Google zur interaktiven Analyse sehr großer Datenmengen. |
|
Dremel |
Verteiltes System für interaktive Abfragen auf großen Datenmengen. Dremel bildet die Basis von Googles Service BigQuery. |
Von Microsoft entwickeltes Programmiermodell, das bei Big-Data-Analysen Ressourcenverteilung, Optimierung paralleler Rechenprozesse, Fehlertoleranz und Datenverteilung übernimmt. Wird nicht weiterentwickelt. |
|
Big-Data-Service, der die Analyse großer Datenmengen sowohl im Batch-Modus als auch im Streaming-Modus (nahezu in Echtzeit) erlaubt. |
|
Kommunikationskanal, der Eingabe-Streams verschiedenster Herkunft mit Ausgabe-Streams verknüpfen kann. |
|
HDFS |
Hadoop Distributed File System: Dateisystem für Hadoop, verteilt Daten blockweise über den Cluster. |
Weboberfläche zur Analyse und Visualisierung von Daten auf Hadoop über einen Browser. |
|
Impala |
Von Cloudera entwickelte Alternative zu Apache Hive. |
MapReduce |
Programmiermodell, das die parallele Berechnung auf verteilten Systemen und über große Datenmengen erlaubt. |
Hochskalierbare, ausfallsichere Open-Source-Datenbank. Einträge werden als Dokumente (Feld-Wert-Paare) gespeichert. |
|
MPI |
Message Passing Interface: Standardisiertes und in verschiedene Programmiersprachen portierbares System zur Kommunikation in parallelen Computerumgebungen. |
Pregel |
Von Google entwickeltes Verfahren zur Berechnung großer Graphen-Modelle, wie sie beispielsweise bei der Analyse von Social-Media-Daten verwendet werden. |
Verteilte SQL-Query-Engine für interaktive Analysen auf großen Datenmengen. |
|
In-Memory-Datenbank; einfache Struktur, dafür sehr schnell. |
|
Sentry |
Von Cloudera entwickeltes Sicherheitssystem, das abgestufte Zugangsrechte zu den Daten in einem Hadoop-Cluster ermöglicht. |
YARN |
Yet Another Resource Negotiator: Trennt das Ressourcen-Management von den eigentlichen Applikationen. So lassen sich neben MapReduce andere Analysen wie MPI, Graph-Berechnungen oder Streaming-Services durchführen, ohne die Datenbank anpassen zu müssen. |