Alle Daten im Griff haben

Virtualisierung macht Schluss mit Datensilos

von Jürgen Mauerer - 30.10.2019

Foto: sdecoret / shutterstock.com

Klassische Data Warehouses und Data Lakes erfüllen nicht mehr die nötigen Anforderungen. Abhilfe kann eine Datenvirtualisierung schaffen.

Konsistent über Datensilos hinweg: Metadaten spielen eine wichtige Rolle beim Sortieren, Filtern und Suchen von Daten.

(Quelle: Denodo)

Daten, Daten, Daten - durch Digitalisierung und das Internet of Things (IoT) wächst die Menge der verfügbaren Informationen in Unternehmen geradezu exponentiell. Die Kunst liegt darin, diesen Datenschatz zu heben, diesen Ozean an Informationen intelligent zu analysieren und dann die richtigen Entscheidungen zu treffen. Unabhängig von Branche oder Größe - Daten sind für Unternehmen jeder Couleur unverzichtbar geworden, um Prozesse zu optimieren und vor allem neue, datenbasierte Geschäftsmodelle zu entwickeln.

Dazu müssen Firmen die vorhandenen, gigantischen Datenmengen allerdings zuerst erschließen und aufbereiten. Hier sieht es im deutschsprachigen Raum nicht so gut aus. Das zeigen die
Ergebnisse der aktuellen „biMA“-Studie von Sopra Steria Consulting. Demnach gibt die Hälfte aller befragten Unternehmen (49 Prozent) an, dass ihre Daten für Analysen unvollständig, veraltet oder widersprüchlich seien. Neben der mangelhaften Datenqualität stellt auch die fehlende Integration von Daten aus unterschiedlichsten Datenquellen eine Hürde dar.

Zahlreiche Firmen kämpfen bei der Datenanalyse also immer noch mit den Grundlagen: Verfügbarkeit, Integration und Qualität. Datenvirtualisierung soll diese Probleme lösen. Sie fungiert als eine Art Middleware für die schnelle Bereitstellung von Daten.

Aufwand für Datenvorbereitung

Traditionelle Ansätze des Datenmanagements auf Basis von Data Warehouses oder Data Lakes wie ETL (Extract, Transform, Load), bei denen Daten für Analysen zunächst gespeichert und transformiert werden müssen, gelangen zunehmend an ihre Grenzen.

„Der Aufwand und die Kosten sind hier sehr hoch. Bevor Unternehmen die Daten nutzen können, müssen sie diese in Datenbanken laden, speichern, bearbeiten und vorbereiten“, erklärt Nick Golovin das Problem, CEO & Gründer von Data Virtuality, einem Anbieter von Software für Datenvirtualisierung. „Der Aufbau eines Data Lakes, eines zentralen Repositorys, in dem sämtliche Daten gespeichert und verwaltet werden, ist nicht trivial.“

Oft verfügen Firmen heute über Dutzende von Datenquellen, die über Rechenzentren, Cloud-Lösungen und andere Orte verteilt sind. Daher ist nicht garantiert, dass wirklich alle relevanten Daten im Data Lake landen. Der zentrale Speicherort erleichtert zwar die Erfassung von Daten und bietet eine hohe Rechenleistung, aber die Herausforderungen an Verfügbarkeit, Aufbereitung und Integration der Daten bleiben bestehen. Denn es reicht nicht, Daten einfach in ihrer Rohform zu speichern.

Unternehmen müssen eine ausufernde Vielfalt von Datentypen und Formaten aggregieren, validieren, mit Metadaten versehen, normalisieren oder verknüpfen, um sie in möglichst optimaler Qualität für analytische und andere Zwecke einsetzen zu können. Das kostet enorm viel Zeit. Studien zeigen, dass Datenexperten bis zu 80 Prozent ihrer Zeit mit entsprechenden Aufgaben beschäftigt sind. Einen Ausweg und die Lösung des Problems verspricht die Datenvirtualisierung.

Zentrale Fähigkeiten der Datenvirtualisierung

Logische Abstraktion und Entkoppelung: Datenvirtualisierung verbindet verteilte Datenquellen, Middleware und Anwendungen, die spezielle Plattformen und Schnittstellen, Formate, Schemata, Sicherheitsprotokolle oder andere Eigenschaften nutzen.

Data Federation: Das Zusammenführen von Daten ist eine wichtige Teildisziplin der Datenvirtualisierung. Um die Geschwindigkeit von Abfragen zu optimieren, kommen unter anderem Techniken wie Caching, In-Memory-Verarbeitung und Algorithmen zum Einsatz.

Integration strukturierter und unstrukturierter Daten: Datenvirtualisierung schlägt eine Brücke zwischen dem Verständnis von unstrukturierten und Webdaten einerseits und dem schematischen Verständnis strukturierter Daten andererseits.

Dynamische Bereitstellung von Datenservices: Datenvirtualisierung fördert die API-Ökonomie, indem sie über Schnittstellen den Zugriff auf jede noch so unterschiedlich formatierte digitale Datenquelle ermöglicht.

Einheitliche Data-Governance und Sicherheit: Alle Daten lassen sich durch eine einzelne virtuelle Ebene, die Redundanzen und Qualitätsprobleme schneller aufdeckt, leicht integrieren. Basis dafür sind Data-Governance und Security von der Quelle bis zum Datenservice für die Ausgabe, eine konsistente Integration sowie Regeln für die Datenqualität.

Seite

Virtualisierung macht Schluss mit Datensilos

Aufwand für Datenvorbereitung

Mehr zum Thema