Virtualisierung macht Schluss mit Datensilos

Herausforderung Performance

von - 30.10.2019
Gartner Magic Quadrant for Data Integration
Große Fische: Auf dem Markt für Datenintegration und Datenvisualisierung mischen viele bekannte Hersteller mit.
(Quelle: Gartner )
Über eines muss man sich allerdings auch im Klaren sein: Die Datenvirtualisierung gibt nicht auf jede Herausforderung der Datenintegration die richtige Antwort. So bildet beispiels­weise die Batch-ETL-Verarbeitung beim Erstellen von historischen Berichten mit den im Data Warehouse gespeicherten historischen Ergebnissen eine bessere Lösung. Wenn jedoch diese historischen Berichte eine von mehreren Datenquellen darstellen, dann spielt die Datenvirtualisierung ihre ureigenen Stärken aus. Die Methodik der Datenvirtualisierung lohnt sich demnach überhaupt erst ab einer gewissen Komplexität, wenn also mehrere Datenquellen vorliegen. Als Mindestgröße gelten drei Datenquellen.
Eine große technische Herausforderung sind die Schnittstellen zwischen der Datenvirtualisierungs-Software und den Datenquellen. Wenn ein Fileserver als Quelle langsam ist, dann ist auch der virtuelle Zugriff langsam. Es geht also um die schnelle Präsentation der Daten in Quasi-Echtzeit. Die Anbieter setzen in diesem Fall auf Caching des Fileservers und leiten den Zugriff auf die Daten im Cache um. Weitere Methoden sind Parallel Processing oder verschiedene Algorithmen für die Optimierung der Abfragen auf die einzelnen Datenquellen.
Robert Eve von TIBCO sieht die größte Herausforderung bei Einführung einer Datenvirtualisierungs-Lösung im Change-Management. „Datenexperten sind mit den physischen Methoden und Tools zur Datenintegration über ETL vertraut. Sie wissen, dass sie diese mit genügend Zeit und Technik zum Laufen bringen können. Doch etwa für Ad-hoc-Anfragen benötigen sie einen alternativen Ansatz und Know- how rund um das Thema Datenvirtualisierung. Hier stellen wir oft eine Barriere fest.“
Robert Eve
Robert Eve
Senior Director of Data Intelligence bei TIBCO
www.tibco.com/de
Foto: TIBCO
„Die IT-Abteilung stellt den Fachabteilungen die Datensätze als Data as a Service konsistenter, sicherer und schneller zu deutlich niedrigeren Kosten bereit.“
Um diese Bedenken zu überwinden, bietet TIBCO Leitfäden und eine Vielzahl von Best Practices für die Entwicklung, Datenmodellierung, Optimierung und den Betrieb einer skalierbaren Lösung zur Datenvirtualisierung.

Vielfältige Einsatzgebiete

Robert Eve unterscheidet grundsätzlich zwei Use-Cases der Datenvirtualisierung: den Einsatz als Datenarchitektur und den Einsatz auf Projektebene.
Bei Ersterem ist es Ziel des Unternehmens, eine firmenweite Datenschicht zu implementieren, die alle Datenquellen umfasst und alle Anwendungen und Datennutzer unterstützt. Dazu erklärt Robert Eve. „Es gibt viele Namen für diese Art von Architektur: Logical Data Warehouse, Data Fabric, Datenvirtualisierungs-Schicht oder Data-Delivery-Plattform. Ich persönlich finde Data as a Service am besten.“
Auf Projektebene wiederum würden die Datenvirtualisierungs-Techniken dazu eingesetzt, um die Daten zu integrieren, die für eine bestimmte Geschäftsanforderung erforderlich sind. Hier bildet die Datenvirtualisierung also eher ein Werkzeug zur Datenintegration als eine Datenarchitektur. „Diese beiden Anwendungsfälle hängen oft zusammen, unsere erfolgreichsten Kunden sehen Projekte häufig als Sprungbrett hin zur Architektur“, betont Eve.
Thomas Niewel von Denodo sieht keine besonderen Begrenzungen für den Einsatzbereich. „Im Prinzip profitiert jede Branche, die umfangreiche Daten analysieren muss, ab einer gewissen Komplexität und Vielfalt an Datenquellen von der Datenvirtualisierung. Beispiele sind die Auswertung von Finanztransaktionen, die 360-Grad-Sicht auf den Kunden in Service, Vertrieb und Marketing, Selfservice-Analytics und BI mit Dashboards, die Vereinigung von verschiedenen Data Warehouses oder der Transport zwischen Datenquellen in einer hybriden Cloud-Umgebung.“
Datenvirtualisierung kann auch digitale Prozesse beschleunigen. Beispiel Maschinenbau: Ändern sich in einem Unternehmen durch IoT oder andere Themen die Produk­tionsprozesse, sammelt es die Produktionsdaten nicht nur im SAP-System, sondern auch in anderen Datenbanken oder Data Warehouses. Mit Datenvirtualisierung wird hier der Zugriff auf die Daten für die Analyse vereinfacht und beschleunigt. Gleiches gilt für den Fall, dass ein Geschäftsbereich für ein datenbasiertes neues Geschäftsmodell schnell und unkompliziert Daten verarbeiten muss.

Anbieter

Produkt

Beschreibung

Attivio

Attivio Cognitive Search and
Insight Platform

Einheitliche Zugriffsschicht auf Daten verschiedener Formate aus unterschiedlichen Quellsystemen mit Methoden wie Machine Learning und Graphen

Data Virtuality

Pipes

Schnelles Integrieren von Daten mit einer einfachen Selfservice-Lösung in eine Cloud-Zieldatenbank

Pipes Professional

Individuell anpassbare Komplettlösung für Daten-Pipelines

Logical Data Warehouse

Höchste Ausbaustufe; Daten integrieren und zentralisieren,
Echtzeit-Zugriff, Datenaustausch automatisieren

Denodo

Denodo Platform 7.0

Datenkatalog mit einer durchsuchbaren, kontextbezogenen Oberfläche, dynamische Abfrageoptimierung, In-Memory-Parallelverarbeitung, automatisierte Lifecycle-Management-Funktionen

IBM

InfoSphere Information Server for Data Integration, Federation Server, Warehouse Design Studio u. a.

Reihe skalierbarer Lösungen; Daten jeder Art lassen sich transformieren und in jedem beliebigen System bereitstellen

Informatica

Informatica Intelligent Data Platform

Stellt alle Datentypen und Metadaten aus unterschiedlichsten Quellen allen Nutzern und Anwendungen skalierbar zur Verfügung; modulare Selfservice-Lösung auf Microservice-Architektur

Microsoft

Microsoft SQL Server

Virtualisierung externer Daten, wodurch einheitliche Data-Layer entstehen; neue Funktionen in Version 2019 (Änderungen in Echtzeit, Entfallen zusätzlicher externer Speicher)

Red Hat

JBoss Data Virtualization

Leistungsfähige Plattform für die Datenvirtualisierung (auch als Cloud-Angebot verfügbar)

SAP

Funktion „Smart Data Access“ in
SAP HANA

Externe Datenquellen lassen sich anschließen, integrieren und virtualisieren. Die Lösung unterstützt gebündelte Abfragen, Datenreplikation, Remote-Datensynchronisation und Prozesse zur Verbesserung der Datenqualität

SAS

Data Integration Server

Umgebung für die Datenintegration inklusive Metadaten-Management

SAS Federation Server

Tool zur virtuellen Integration von Daten aus unterschiedlichen
Quellsystemen

Talend

Data Fabric

Umfassende Lösung zur Integration und Virtualisierung von Daten; über 900 Konnektoren zur Anbindung von Datenquellen, Funktionen für maschinelles Lernen, Datenqualität und Data Governance

TIBCO

TIBCO Data Virtualization

Viele Funktionen und eine umfangreiche Komponente fürs
Management sehr komplexer Umgebungen

Verwandte Themen