Ein Data Warehouse für die Cloud

Cloud statt Hadoop

von - 27.05.2019
Gartner Magic Quadrant for Data Management Solutions for Analytics
Führende Rolle: Gartner hat Snowflake im jüngst veröffentlichten „Magic Quadrant for Data Management Solutions for Analytics“ unter den „Leaders“ eingestuft.
(Quelle: Gartner (Januar 2019))
Viele Leute in der IT und in den Unternehmen hofften, dass Hadoop diese Revolution einleiten könnte. Die Hadoop-Technologie basiert auf Open Source und Commodity-Hardware und stellt so relativ kostengünstigen Storage zur Ver­fügung, der für die Aufnahme und Verwaltung großer Datenmengen geeignet ist.
Benoît Dageville aber hält von Hadoop nicht sehr viel. Er führt gegen das freie Framework gleich eine ganze Reihe von Argumenten ins Feld: „Hadoop-Systeme sind oft weit weniger effizient als traditionelle Warehouse-Systeme. Die Schnittstellen sind für Spezialisten gemacht und lassen Millionen von Anwendern und Administratoren unberücksichtigt. Außerdem ist Hadoop kein Produkt, sondern ein kompliziert zugängliches Ökosystem.“ Und das bedeutet, so der Snowflake-Gründer, dass es nicht nur sehr komplex sei, sondern letztlich auch sehr teuer.
Für Dageville stellt einzig und allein die Cloud die Computing-Plattform für das „ideale“ Data Warehouse dar. Die Cloud sei mehr als nur ein anderer Weg, um an Hardware-Ressourcen heranzukommen. Sie sorge für virtuell unendliche Speicher- und Compute-Ressourcen, die on demand angefordert, aber auch wieder abbestellt werden könnten. Und sie befreie die Anwender von allen Managementaufgaben bei Software und Infrastruktur. Auf dieser Basis sei wirklich elastische Software aufzubauen, die die Unternehmen als Service beziehen können. Dageville räumt aber ein: „Um die erstaunlichen Fähigkeiten der Cloud voll auszuschöpfen, muss die Software neu erfunden und von Grund auf neu aufgebaut werden.“
Genau das nimmt Snowflake für sich in Anspruch. Es bezeichnet sich als „das für die Cloud gebaute Data Warehouse“. Dessen besondere Merkmale sind: analytische relationale Datenbank speziell für die Cloud; SQL-Kompatibilität mit Datenbanken und Data Warehouses wie Oracle, Teradata, Netezza, SQL Server und Vertica; komplettes Self-Management, wodurch alle Extra-Ausgaben auf Kundenseite für den Betrieb der Datenbank wegfallen; unbegrenzte Größe der Daten; unbegrenzter gleichzeitiger Zugriff der Mitarbeiter auf der Kundenseite; Unterstützung von strukturierten und maschinell erzeugten halb strukturierten Daten; wesentlich niedrigere Kosten als traditionelle SQL-basierte Data Warehouses.
Verwandte Themen