Virtualisierung macht Schluss mit Datensilos

Maschinelles Lernen im Einsatz

von Jürgen Mauerer - 30.10.2019

(Quelle: IDC )

Hier wird künftig maschinelles Lernen eine zentrale Rolle spielen. „Die Datenlandschaft wird immer komplexer: mehr Quellen, mehr Kunden und mehr Daten. Algorithmen und maschinelles Lernen unterstützen beim Erstellen von Datenmodellen, beim Erkennen von Zusammenhängen zwischen Daten und natürlich auch beim Optimieren der Abfrageleistung“, so Thomas Niewel.

Auch beim Metadaten-Management lassen sich mit KI Assoziationen bilden, um Zusammenhänge besser zu erkennen. Metadaten spielen eine wichtige Rolle beim Sortieren, Filtern und Suchen von Daten. Ziel wird sein, die Metadaten künftig über Datensilos hinweg konsistent zu erfassen. Datenvirtualisierung wird dann auch zu einem Repository für Metadaten.

Ein weiterer wichtiger Trend sind intuitiv nutzbare Bedienoberflächen und eine verbesserte Visualisierung, damit auch weniger IT-affine Anwender die Tools für die Datenvirtualisierung im Selfservice einsetzen können. So lassen sich auch die Beziehungen zwischen den Datenelementen visualisieren. Aufgrund der zentralen Definition und Speicherung wird außerdem der Transformationsprozess von der Quelle bis zum Zielformat transparent.

Zudem ist davon auszugehen, dass Datenvirtualisierung künftig enger mit anderen Datenmanagement-Tools für ETL, Master Data Management, Metadaten-Management oder Data Governance zusammenwachsen wird.

Funktionen und Komponenten

Welche Funktionen und Merkmale sollten Werkzeuge für die Datenvirtualisierung umfassen? Für Nick Golovin von Data Virtuality steht die Einbindung und Connectivity zu vielen unterschiedlichen Datenquellen ganz oben auf der Liste: „Zentral ist hier ein schneller Zugriff auf die Daten. Daher geht es darum, die Performance der Abfragen mit Methoden wie Caching, Parallel Processing und weiteren Algorithmen zu optimieren.“

Weiterhin wichtig sind seiner Ansicht nach Funktionen für Security und Data Governance, Hochverfügbarkeit und Skalierbarkeit sowie Ressourcen-Management.

Robert Eve von TIBCO Software nennt die folgenden fünf Hauptkomponenten von Lösungen für die Datenvirtualisierung:

Datenmodellierung: Wiederverwendbare Datenservices bündeln Daten aus verschiedenen Quellen und wandeln die Rohdaten für die Analyse in lesbare Formate um

Laufzeitumgebung (Runtime): Ein Application Server führt die Datenservices mit Hilfe von Algorithmen aus, um die Leistung der Abfragen zu optimieren

Management: Diese Komponente stellt die Verfügbarkeit und Servicequalität sicher. Hier erfolgen auch administrative Aktivitäten wie Benutzeranmeldung, Sicherheit oder Backup- und Failover-Umgebungen

Adapter/Konnektoren: Eine Vielzahl von Konnektoren dient der Anbindung von Datenquellen und Schnittstellen wie ODBC, SOAP oder REST für den Zugriff durch die Nutzer oder Anwendungen

Katalog: Hier können die Anwender nach Datenservices suchen und diese nutzen.

Fazit & Ausblick

Das Konzept der Datenvirtualisierung existiert im Umfeld von Business Intelligence (BI) und Data Warehousing schon seit einer ganzen Weile. Klassische Tools der Datenintegration laden dabei Daten aus verschiedenen Quellsystemen, bereiten sie auf und speichern sie in einem Data Warehouse. Über BI-Berichte werden diese Informationen dann visualisiert.

Bei der Datenvirtualisierung selbst geht es dann in Kern in erster Linie um die logische Datenintegration von Daten zum Abfragezeitpunkt. Sie schafft vor allem eine Abstraktionsschicht zwischen den vorhandenen internen und externen Datenquellen sowie den diversen Reporting-Tools. Ganz entscheidend dabei ist: Dafür ist es unwesentlich, um welche Art von Datenquellen und Datenformaten es sich handelt.

Nach außen hin sieht die Datenvirtualisierungs-Lösung aus wie ein Data Warehouse. Der entscheidende Unterschied ist, dass sie die Daten nicht selbst speichert, sondern sie holt sie bei Abfragen mehr oder weniger in Echtzeit on demand aus den Quellsystemen.

Mit Datenvirtualisierung können Unternehmen gegenüber herkömmlichen Tools für die Integration von Daten zwischen 50 und 80 Prozent Zeit sparen. Business-Anwender arbeiten dank dieses Ansatzes nur noch mit einer zentralen, logischen Datenbank. Da Unternehmen durch die Datenvirtualisierung agiler und flexibler werden, können sie geschäftliche Herausforderungen besser meistern. Grundlage dafür ist allerdings eine ausreichende Performance der Abfragen.

Seite

Virtualisierung macht Schluss mit Datensilos

Maschinelles Lernen im Einsatz

Funktionen und Komponenten

Fazit & Ausblick

Mehr zum Thema