Herausforderung Performance
Große Fische: Auf dem Markt für Datenintegration und Datenvisualisierung mischen viele bekannte Hersteller mit.
(Quelle: Gartner )
Über eines muss man sich allerdings auch im Klaren sein: Die Datenvirtualisierung gibt nicht auf jede Herausforderung der Datenintegration die richtige Antwort. So bildet beispielsweise die Batch-ETL-Verarbeitung beim Erstellen von historischen Berichten mit den im Data Warehouse gespeicherten historischen Ergebnissen eine bessere Lösung. Wenn jedoch diese historischen Berichte eine von mehreren Datenquellen darstellen, dann spielt die Datenvirtualisierung ihre ureigenen Stärken aus. Die Methodik der Datenvirtualisierung lohnt sich demnach überhaupt erst ab einer gewissen Komplexität, wenn also mehrere Datenquellen vorliegen. Als Mindestgröße gelten drei Datenquellen.
Eine große technische Herausforderung sind die Schnittstellen zwischen der Datenvirtualisierungs-
Software und den Datenquellen. Wenn ein Fileserver als Quelle langsam ist, dann ist auch der virtuelle Zugriff langsam. Es geht also um die schnelle Präsentation der Daten in Quasi-Echtzeit. Die Anbieter setzen in diesem Fall auf Caching des Fileservers und leiten den Zugriff auf die Daten im Cache um. Weitere Methoden sind Parallel Processing oder verschiedene Algorithmen für die Optimierung der Abfragen auf die einzelnen Datenquellen.
Robert Eve von TIBCO sieht die größte Herausforderung bei Einführung einer Datenvirtualisierungs-Lösung im Change-Management. „Datenexperten sind mit den physischen Methoden und Tools zur Datenintegration über ETL vertraut. Sie wissen, dass sie diese mit genügend Zeit und Technik zum Laufen bringen können. Doch etwa für Ad-hoc-Anfragen benötigen sie einen alternativen Ansatz und Know- how rund um das Thema Datenvirtualisierung. Hier stellen wir oft eine Barriere fest.“
Um diese Bedenken zu überwinden, bietet TIBCO Leitfäden und eine Vielzahl von Best Practices für die Entwicklung, Datenmodellierung, Optimierung und den Betrieb einer skalierbaren Lösung zur Datenvirtualisierung.
Vielfältige Einsatzgebiete
Robert Eve unterscheidet grundsätzlich zwei Use-Cases der Datenvirtualisierung: den Einsatz als Datenarchitektur und den Einsatz auf Projektebene.
Bei Ersterem ist es Ziel des Unternehmens, eine firmenweite Datenschicht zu implementieren, die alle Datenquellen umfasst und alle Anwendungen und Datennutzer unterstützt. Dazu erklärt Robert Eve. „Es gibt viele Namen für diese Art von Architektur: Logical Data Warehouse, Data Fabric, Datenvirtualisierungs-Schicht oder Data-Delivery-Plattform. Ich persönlich finde Data as a Service am besten.“
Auf Projektebene wiederum würden die Datenvirtualisierungs-Techniken dazu eingesetzt, um die Daten zu integrieren, die für eine bestimmte Geschäftsanforderung erforderlich sind. Hier bildet die Datenvirtualisierung also eher ein Werkzeug zur Datenintegration als eine Datenarchitektur. „Diese beiden Anwendungsfälle hängen oft zusammen, unsere erfolgreichsten Kunden sehen Projekte häufig als Sprungbrett hin zur Architektur“, betont Eve.
Thomas Niewel von Denodo sieht keine besonderen Begrenzungen für den Einsatzbereich. „Im Prinzip profitiert jede Branche, die umfangreiche Daten analysieren muss, ab einer gewissen Komplexität und Vielfalt an Datenquellen von der Datenvirtualisierung. Beispiele sind die Auswertung von Finanztransaktionen, die 360-Grad-Sicht auf den Kunden in Service, Vertrieb und Marketing, Selfservice-Analytics und BI mit Dashboards, die Vereinigung von verschiedenen Data Warehouses oder der Transport zwischen Datenquellen in einer hybriden Cloud-Umgebung.“
Datenvirtualisierung kann auch digitale Prozesse beschleunigen. Beispiel Maschinenbau: Ändern sich in einem Unternehmen durch IoT oder andere Themen die Produktionsprozesse, sammelt es die Produktionsdaten nicht nur im SAP-System, sondern auch in anderen Datenbanken oder Data Warehouses. Mit Datenvirtualisierung wird hier der Zugriff auf die Daten für die Analyse vereinfacht und beschleunigt. Gleiches gilt für den Fall, dass ein Geschäftsbereich für ein datenbasiertes neues Geschäftsmodell schnell und unkompliziert Daten verarbeiten muss.
Anbieter |
Produkt |
Beschreibung |
Attivio |
Attivio Cognitive Search and Insight Platform |
Einheitliche Zugriffsschicht auf Daten verschiedener Formate aus unterschiedlichen Quellsystemen mit Methoden wie Machine Learning und Graphen |
Data Virtuality |
Pipes |
Schnelles Integrieren von Daten mit einer einfachen Selfservice-Lösung in eine Cloud-Zieldatenbank |
Pipes Professional |
Individuell anpassbare Komplettlösung für Daten-Pipelines |
Logical Data Warehouse |
Höchste Ausbaustufe; Daten integrieren und zentralisieren, Echtzeit-Zugriff, Datenaustausch automatisieren |
Denodo |
Denodo Platform 7.0 |
Datenkatalog mit einer durchsuchbaren, kontextbezogenen Oberfläche, dynamische Abfrageoptimierung, In-Memory-Parallelverarbeitung, automatisierte Lifecycle-Management-Funktionen |
IBM |
InfoSphere Information Server for Data Integration, Federation Server, Warehouse Design Studio u. a. |
Reihe skalierbarer Lösungen; Daten jeder Art lassen sich transformieren und in jedem beliebigen System bereitstellen |
Informatica |
Informatica Intelligent Data Platform |
Stellt alle Datentypen und Metadaten aus unterschiedlichsten Quellen allen Nutzern und Anwendungen skalierbar zur Verfügung; modulare Selfservice-Lösung auf Microservice-Architektur |
Microsoft |
Microsoft SQL Server |
Virtualisierung externer Daten, wodurch einheitliche Data-Layer entstehen; neue Funktionen in Version 2019 (Änderungen in Echtzeit, Entfallen zusätzlicher externer Speicher) |
Red Hat |
JBoss Data Virtualization |
Leistungsfähige Plattform für die Datenvirtualisierung (auch als Cloud-Angebot verfügbar) |
SAP |
Funktion „Smart Data Access“ in SAP HANA |
Externe Datenquellen lassen sich anschließen, integrieren und virtualisieren. Die Lösung unterstützt gebündelte Abfragen, Datenreplikation, Remote-Datensynchronisation und Prozesse zur Verbesserung der Datenqualität |
SAS |
Data Integration Server |
Umgebung für die Datenintegration inklusive Metadaten-Management |
SAS Federation Server |
Tool zur virtuellen Integration von Daten aus unterschiedlichen Quellsystemen |
Talend |
Data Fabric |
Umfassende Lösung zur Integration und Virtualisierung von Daten; über 900 Konnektoren zur Anbindung von Datenquellen, Funktionen für maschinelles Lernen, Datenqualität und Data Governance |
TIBCO |
TIBCO Data Virtualization |
Viele Funktionen und eine umfangreiche Komponente fürs Management sehr komplexer Umgebungen |