Ein Data Warehouse für die Cloud
Cloud statt Hadoop
von Hartmut Wiehr - 27.05.2019
Führende Rolle: Gartner hat Snowflake im jüngst veröffentlichten „Magic Quadrant for Data Management Solutions for Analytics“ unter den „Leaders“ eingestuft.
(Quelle: Gartner (Januar 2019))
Benoît Dageville aber hält von Hadoop nicht sehr viel. Er führt gegen das freie Framework gleich eine ganze Reihe von Argumenten ins Feld: „Hadoop-Systeme sind oft weit weniger effizient als traditionelle Warehouse-Systeme. Die Schnittstellen sind für Spezialisten gemacht und lassen Millionen von Anwendern und Administratoren unberücksichtigt. Außerdem ist Hadoop kein Produkt, sondern ein kompliziert zugängliches Ökosystem.“ Und das bedeutet, so der Snowflake-Gründer, dass es nicht nur sehr komplex sei, sondern letztlich auch sehr teuer.
Für Dageville stellt einzig und allein die Cloud die Computing-Plattform für das „ideale“ Data Warehouse dar. Die Cloud sei mehr als nur ein anderer Weg, um an Hardware-Ressourcen heranzukommen. Sie sorge für virtuell unendliche Speicher- und Compute-Ressourcen, die on demand angefordert, aber auch wieder abbestellt werden könnten. Und sie befreie die Anwender von allen Managementaufgaben bei Software und Infrastruktur. Auf dieser Basis sei wirklich elastische Software aufzubauen, die die Unternehmen als Service beziehen können. Dageville räumt aber ein: „Um die erstaunlichen Fähigkeiten der Cloud voll auszuschöpfen, muss die Software neu erfunden und von Grund auf neu aufgebaut werden.“
Genau das nimmt Snowflake für sich in Anspruch. Es bezeichnet sich als „das für die Cloud gebaute Data Warehouse“. Dessen besondere Merkmale sind: analytische relationale Datenbank speziell für die Cloud; SQL-Kompatibilität mit Datenbanken und Data Warehouses wie Oracle, Teradata, Netezza, SQL Server und Vertica; komplettes Self-Management, wodurch alle Extra-Ausgaben auf Kundenseite für den Betrieb der Datenbank wegfallen; unbegrenzte Größe der Daten; unbegrenzter gleichzeitiger Zugriff der Mitarbeiter auf der Kundenseite; Unterstützung von strukturierten und maschinell erzeugten halb strukturierten Daten; wesentlich niedrigere Kosten als traditionelle SQL-basierte Data Warehouses.