Virtualisierung macht Schluss mit Datensilos
Virtualisierung schafft Abhilfe
von Jürgen Mauerer - 30.10.2019
Datenvirtualisierung stellt über Konnektoren Daten aus unterschiedlichen Datenquellen einfach und schnell in einem virtuellen Datenmodell bereit, entweder über Datenbank-Protokolle wie SQL, ODBC oder JDBC, Web-Services wie HTTP, REST, SOAP oder XML sowie Messaging (JMS). So werden auch Daten verfügbar, die sich noch nicht im Data Lake befinden.
„Im Prinzip handelt es sich bei Datenvirtualisierung um eine Art Middleware, die Daten aus verschiedenen Töpfen sammelt und direkt für die Analyse zur Verfügung stellt. Der Nutzer bekommt nicht mit, woher die Daten stammen. Das heißt, die Komplexität wird versteckt, es sieht für ihn wie eine einzige Datenbank aus“, erklärt Nick Golovin die Idee dieses Ansatzes.
Datenvirtualisierung schafft somit eine Abstraktionsschicht zwischen den vorhandenen internen und externen Datenquellen sowie den Reporting-Tools. Hierbei ist es unwesentlich, um welche Art von Datenquelle und Datenformat es sich handelt.
„Datenvirtualisierung integriert all diese unterschiedlichen Daten, ohne die Daten replizieren zu müssen. Auf diese Weise wird eine einzelne, ‚virtuelle‘ Datenebene geschaffen, die mit einheitlichen Datenservices zahlreiche Anwendungen und geschäftliche Nutzer unterstützt“, erläutert Thomas Niewel, Technical Sales Director DACH beim Virtualisierungs-Anbieter Denodo.
Lösungen für die Datenvirtualisierung kombinieren, integrieren und bereinigen die anfallende Daten und wandeln sie für das jeweilige Einsatzszenario in ein passendes semantisches Datenmodell um, meist in einer grafischen Bedienoberfläche oder durch dokumentierte Skripts. Die jeweilige virtuelle Datenansicht wird gesichert und als SQL-Ansicht oder in anderen Datenservice-Formaten meist über APIs veröffentlicht.
Schneller Zugriff
„Nutzer und Anwendungen erhalten damit in Echtzeit abstrahierte und integrierte Informationen aus verteilten Quellen. Echtzeit heißt hier nicht Streamen von Daten, sondern die Bereitstellung von Daten innerhalb einer Minute“, so Thomas Niewel. Um den Zugriff auf die Daten zu beschleunigen, werden sie meist in einem Cache vorgehalten. Zusätzlich sorgen Algorithmen dafür, dass Abfragen auf die einzelnen Datenquellen optimiert werden.
Robert Eve, Senior Director of Data Intelligence bei TIBCO Software, stellt als einen der wichtigsten Vorteile der Datenvirtualisierung heraus, dass sie zu einer höheren Agilität im Business beiträgt, da die Daten schneller für die Analyse bereitstehen als bei herkömmlichen Methoden der Datenintegration wie ETL und Replikation.
„Die IT-Abteilung stellt die Datensätze damit den Fachabteilungen als Data as a Service konsistenter, sicherer und schneller zu deutlich niedrigeren Kosten bereit. Es sind keine Kopien mehr notwendig, der Administrationsaufwand sinkt und auch die Compliance etwa mit der europäischen Datenschutz-Grundverordnung bleibt gewahrt“, betont
Robert Eve.
Robert Eve.
Der einheitliche Datenzugriff über Selfservice ermögliche es Business-Anwendern, Daten innerhalb weniger Minuten ohne aufwendige Suche zu finden, in das Analyse-Tool ihrer Wahl zu ziehen und die Ergebnisse anschaulich zu visualisieren. Dadurch sind sie laut Eve in der Lage, schnellere und bessere Entscheidungen mit Mehrwert für ihr Geschäft zu treffen.
„Wenn man bedenkt, dass die Data Scientists laut IDC mit herkömmlichen Mitteln und Methoden 80 Prozent ihrer Zeit mit der Suche und Aufbereitung von Daten verbringen, dann zeigt sich das große Potenzial, das die Datenvirtualisierung hier bietet. Mit Hilfe von Datenvirtualisierung sind die Experten also nicht länger von Montag bis Donnerstag mit der Datenaufbereitung beschäftigt und mit der eigentlichen Analyse nur am Freitag.“
Hinzu kommt: Die Daten lassen sich darüber hinaus je nach Bedarf mit der ursprünglichen Datenquelle synchronisieren, und durch ein zentrales Zugriffsmanagement erhalten ausschließlich berechtigte Mitarbeiter Zugang zu entsprechenden Daten.