Virtualisierung macht Schluss mit Datensilos

Gartner Magic Quadrant for Data Integration

Große Fische: Auf dem Markt für Datenintegration und Datenvisualisierung mischen viele bekannte Hersteller mit.

(Quelle: Gartner )

Über eines muss man sich allerdings auch im Klaren sein: Die Datenvirtualisierung gibt nicht auf jede Herausforderung der Datenintegration die richtige Antwort. So bildet beispielsweise die Batch-ETL-Verarbeitung beim Erstellen von historischen Berichten mit den im Data Warehouse gespeicherten historischen Ergebnissen eine bessere Lösung. Wenn jedoch diese historischen Berichte eine von mehreren Datenquellen darstellen, dann spielt die Datenvirtualisierung ihre ureigenen Stärken aus. Die Methodik der Datenvirtualisierung lohnt sich demnach überhaupt erst ab einer gewissen Komplexität, wenn also mehrere Datenquellen vorliegen. Als Mindestgröße gelten drei Datenquellen.

Eine große technische Herausforderung sind die Schnittstellen zwischen der Datenvirtualisierungs-Software und den Datenquellen. Wenn ein Fileserver als Quelle langsam ist, dann ist auch der virtuelle Zugriff langsam. Es geht also um die schnelle Präsentation der Daten in Quasi-Echtzeit. Die Anbieter setzen in diesem Fall auf Caching des Fileservers und leiten den Zugriff auf die Daten im Cache um. Weitere Methoden sind Parallel Processing oder verschiedene Algorithmen für die Optimierung der Abfragen auf die einzelnen Datenquellen.

Robert Eve von TIBCO sieht die größte Herausforderung bei Einführung einer Datenvirtualisierungs-Lösung im Change-Management. „Datenexperten sind mit den physischen Methoden und Tools zur Datenintegration über ETL vertraut. Sie wissen, dass sie diese mit genügend Zeit und Technik zum Laufen bringen können. Doch etwa für Ad-hoc-Anfragen benötigen sie einen alternativen Ansatz und Know- how rund um das Thema Datenvirtualisierung. Hier stellen wir oft eine Barriere fest.“

Um diese Bedenken zu überwinden, bietet TIBCO Leitfäden und eine Vielzahl von Best Practices für die Entwicklung, Datenmodellierung, Optimierung und den Betrieb einer skalierbaren Lösung zur Datenvirtualisierung.

Robert Eve unterscheidet grundsätzlich zwei Use-Cases der Datenvirtualisierung: den Einsatz als Datenarchitektur und den Einsatz auf Projektebene.

Bei Ersterem ist es Ziel des Unternehmens, eine firmenweite Datenschicht zu implementieren, die alle Datenquellen umfasst und alle Anwendungen und Datennutzer unterstützt. Dazu erklärt Robert Eve. „Es gibt viele Namen für diese Art von Architektur: Logical Data Warehouse, Data Fabric, Datenvirtualisierungs-Schicht oder Data-Delivery-Plattform. Ich persönlich finde Data as a Service am besten.“

Auf Projektebene wiederum würden die Datenvirtualisierungs-Techniken dazu eingesetzt, um die Daten zu integrieren, die für eine bestimmte Geschäftsanforderung erforderlich sind. Hier bildet die Datenvirtualisierung also eher ein Werkzeug zur Datenintegration als eine Datenarchitektur. „Diese beiden Anwendungsfälle hängen oft zusammen, unsere erfolgreichsten Kunden sehen Projekte häufig als Sprungbrett hin zur Architektur“, betont Eve.

Thomas Niewel von Denodo sieht keine besonderen Begrenzungen für den Einsatzbereich. „Im Prinzip profitiert jede Branche, die umfangreiche Daten analysieren muss, ab einer gewissen Komplexität und Vielfalt an Datenquellen von der Datenvirtualisierung. Beispiele sind die Auswertung von Finanztransaktionen, die 360-Grad-Sicht auf den Kunden in Service, Vertrieb und Marketing, Selfservice-Analytics und BI mit Dashboards, die Vereinigung von verschiedenen Data Warehouses oder der Transport zwischen Datenquellen in einer hybriden Cloud-Umgebung.“

Datenvirtualisierung kann auch digitale Prozesse beschleunigen. Beispiel Maschinenbau: Ändern sich in einem Unternehmen durch IoT oder andere Themen die Produktionsprozesse, sammelt es die Produktionsdaten nicht nur im SAP-System, sondern auch in anderen Datenbanken oder Data Warehouses. Mit Datenvirtualisierung wird hier der Zugriff auf die Daten für die Analyse vereinfacht und beschleunigt. Gleiches gilt für den Fall, dass ein Geschäftsbereich für ein datenbasiertes neues Geschäftsmodell schnell und unkompliziert Daten verarbeiten muss.

Anbieter	Produkt	Beschreibung
Attivio	Attivio Cognitive Search and Insight Platform	Einheitliche Zugriffsschicht auf Daten verschiedener Formate aus unterschiedlichen Quellsystemen mit Methoden wie Machine Learning und Graphen
Data Virtuality	Pipes	Schnelles Integrieren von Daten mit einer einfachen Selfservice-Lösung in eine Cloud-Zieldatenbank
	Pipes Professional	Individuell anpassbare Komplettlösung für Daten-Pipelines
	Logical Data Warehouse	Höchste Ausbaustufe; Daten integrieren und zentralisieren, Echtzeit-Zugriff, Datenaustausch automatisieren
Denodo	Denodo Platform 7.0	Datenkatalog mit einer durchsuchbaren, kontextbezogenen Oberfläche, dynamische Abfrageoptimierung, In-Memory-Parallelverarbeitung, automatisierte Lifecycle-Management-Funktionen
IBM	InfoSphere Information Server for Data Integration, Federation Server, Warehouse Design Studio u. a.	Reihe skalierbarer Lösungen; Daten jeder Art lassen sich transformieren und in jedem beliebigen System bereitstellen
Informatica	Informatica Intelligent Data Platform	Stellt alle Datentypen und Metadaten aus unterschiedlichsten Quellen allen Nutzern und Anwendungen skalierbar zur Verfügung; modulare Selfservice-Lösung auf Microservice-Architektur
Microsoft	Microsoft SQL Server	Virtualisierung externer Daten, wodurch einheitliche Data-Layer entstehen; neue Funktionen in Version 2019 (Änderungen in Echtzeit, Entfallen zusätzlicher externer Speicher)
Red Hat	JBoss Data Virtualization	Leistungsfähige Plattform für die Datenvirtualisierung (auch als Cloud-Angebot verfügbar)
SAP	Funktion „Smart Data Access“ in SAP HANA	Externe Datenquellen lassen sich anschließen, integrieren und virtualisieren. Die Lösung unterstützt gebündelte Abfragen, Datenreplikation, Remote-Datensynchronisation und Prozesse zur Verbesserung der Datenqualität
SAS	Data Integration Server	Umgebung für die Datenintegration inklusive Metadaten-Management
SAS	SAS Federation Server	Tool zur virtuellen Integration von Daten aus unterschiedlichen Quellsystemen
Talend	Data Fabric	Umfassende Lösung zur Integration und Virtualisierung von Daten; über 900 Konnektoren zur Anbindung von Datenquellen, Funktionen für maschinelles Lernen, Datenqualität und Data Governance
TIBCO	TIBCO Data Virtualization	Viele Funktionen und eine umfangreiche Komponente fürs Management sehr komplexer Umgebungen

Virtualisierung macht Schluss mit Datensilos

Herausforderung Performance

Vielfältige Einsatzgebiete

Mehr zum Thema