Big Data

Kostengünstige Datenanalyse für Fachbereiche

von - 29.12.2015
Kostengünstige Datenanalyse für Fachbereiche
Foto: shutterstock / is am are
Hadoop und NoSQL speichern und verarbeiten die Daten auf Standard-Hardware. Die beiden Werkzeuge erweitern und modernisieren damit das klassische Data-Warehouse-Konzept.
Bislang setzten Unternehmen auf Data-Warehouse-Techniken, um aus ihren IT-Systemen wichtige Erkenntnisse über ihr aktuelles Geschäft zu ziehen. In jüngster Zeit ist dieser Ansatz von der Realität überholt worden. Während des normalen Geschäftsbetriebs eines Unternehmens fallen heute Tag für Tag riesige Mengen an Daten an – sei es aus der Produktion, der Online-Präsenz oder den Sensordaten von Mobilgeräten und Maschinen.
Das richtige Big-Data-Tool: Die Auswahl der passenden Tools orientiert sich an den Kriterien Datenvielfalt und Geschwindigkeit, mit der die Ergebnisse zur Verfügung stehen sollen.
Das richtige Big-Data-Tool: Die Auswahl der passenden Tools orientiert sich an den Kriterien Datenvielfalt und Geschwindigkeit, mit der die Ergebnisse zur Verfügung stehen sollen.
In einem solchen Szenario können täglich 100 Millionen neue Datensätze anfallen. Eine Verarbeitung mit klassischer Data-Warehouse-Technik stößt in diesem Umfeld schnell an ihre Grenzen. Besonders die Fachabteilungen stehen unter dem Druck, die Informationen aus dem Geschäftsbetrieb nahezu in Echtzeit auswerten zu müssen, was mit der klassischen Methode nicht möglich ist.
Neue Big-Data-Ansätze versprechen, den veränderten Anforderungen gerecht zu werden. Darunter finden sich Werkzeuge wie NoSQL und Hadoop, mit denen sich das klassische Data-Warehouse-Konzept erweitern und modernisieren lässt.

Skaleneffekte durch NoSQL

Relationale Datenbanken – wie sie bei Data Warehouses eingesetzt werden – können unter Last Schwierigkeiten mit der Performance bekommen. Typische Beispiele dafür sind Strea­ming-Media-Applikationen oder Webseiten mit hohem Lastaufkommen. Der Grund: Der bei SQL-Systemen erforderliche Verwaltungsmehraufwand bei der Skalierung führt ab einem bestimmten Punkt dazu, dass sich die Vorteile von SQL ins Negative kehren und die Performance deutlich sinkt. Dies gilt umso mehr, je größer der Skalierungs­bedarf wird.
Skalierbarkeit von Datenbanken: Bei hohem Datenaufkommen sinkt die Leistung von traditionellen SQL-Datenbanken deutlich, während sie bei NoSQL-Datenbanken nahezu gleich bleibt.
Skalierbarkeit von Datenbanken: Bei hohem Datenaufkommen sinkt die Leistung von traditionellen SQL-Datenbanken deutlich, während sie bei NoSQL-Datenbanken nahezu gleich bleibt.
NoSQL-Datenbanken (Not only SQL) können mit diesen Anforderungen besser umgehen. Einerseits laufen sie auf Standard-Hardware und sind andererseits horizontal skalierbar, wodurch sie große Datenmengen kostengünstig verarbeiten können. Wichtige Vertreter dieser Datenbankgattung sind etwa MongoDB, Cassandra, CouchDB oder Neo4j.
Durch ihre Skalierbarkeit und Flexibilität passen NoSQL-Systeme optimal zu den Anforderungen von Big Data.
Ein großer Nachteil von NoSQL liegt jedoch in der Abfrage der gespeicherten Daten. Anders als bei relationalen Datenbanken, wo es die einheitliche und sehr mächtige Abfragesprache SQL gibt, existiert bei NoSQL bislang kein einheitlicher Standard über die Datenbanken hinweg. Für Funktionen wie Ad-hoc-Reporting, Dashboards und OLAP-Analysen spielt daher SQL aktuell immer noch eine tragende Rolle. NoSQL-Systeme lassen sich jedoch auch mit Data-Warehouse-Technik kombinieren, um von beiden Ansätzen zu profitieren, was besonders für Fachbereiche interessant ist.
Verwandte Themen