Virtualisierung macht Schluss mit Datensilos

Im Gespräch mit Lars Iffert von BARC

von - 30.10.2019
Lars Iffert
Lars Iffert: Analyst und Berater Analytics und Daten­management bei BARC
(Quelle: BARC )
Lars Iffert ist Analyst & Berater Analytics und Datenmanagement beim Forschungs- und Beratungsinstitut BARC - Business Application Research Center. Er begleitet Unternehmen bei Projekten und der Software-Auswahl zum Thema Datenvirtualisierung.
Im Interview mit com! professional spricht er über Vorteile und Grenzen der Datenvirtualisierung und erklärt, warum Unternehmen dafür über eine Datenstrategie verfügen sollten.
com! professional: Datenvirtualisierung ist vor allem in den USA eine etablierte Technologie. Schon vor zehn Jahren setzten hier insbesondere Anwender aus dem Finanzsektor Projekte um. Im deutschsprachigen Raum nimmt das Thema erst seit etwa zwei Jahren Fahrt auf. Was ist Datenvirtualisierung?
Lars Iffert: Datenvirtualisierung ist eine Technologie, die wir im Bereich von Analytics, Business Intelligence (BI) und Data Ware­housing schon lange diskutieren. Aktuell nutzen Unternehmen für das Data Warehousing zumeist noch die klassische Daten­integration: Daten, die später in den Analysen und Berichten angezeigt werden sollen, werden von Tools aus Quellsystemen wie CRM-, ERP-Systemen oder CSV-Dateien geladen und verarbeitet. Anschließend speichern die Werkzeuge die Informationen in das Data Warehouse. Anwender greifen dann über ihre BI-Berichte oder OLAP-Analysen auf diese Informationen zu, um die Daten auszuwerten und darauf Entscheidungen zu treffen.
com! professional: Worin unterscheidet sich Datenvirtualisierung von dieser klassischen Form der Datenintegration?
Iffert: Bei der Datenvirtualisierung geschieht die Datenintegration nicht zu einem bestimmten, vorher festgesetzten Zeitpunkt in ein Data Warehouse, etwa jede Nacht. Vielmehr passiert die Integration, sprich das Laden aus den Zielsystemen und die Aufbereitung, zum Abfragezeitpunkt: Das Werkzeug für die Datenvirtualisierung sieht dabei nach außen selbst aus wie ein Data Ware­house. Es bietet den BI-Berichten und Analyse-Tools Tabellen, die sich mit SQL lesen lassen. Intern hält das Tool aber nicht die Daten, sondern holt sie sich dann aus den Quellsystemen, wenn sie benötigt werden, etwa wenn die BI-Software auf die virtuellen Tabellen im Datenvirtualisierungs-Werkzeug zugreift.
com! professional: Welche Vorteile bietet Datenvirtualisierung?
Iffert: Ihr Hauptvorteil liegt darin, dass Unternehmen damit sehr schnell neue Analytics-Anforderungen umsetzen können. Man legt keine Tabellen im Data Warehouse an und konzipiert, entwickelt und stellt komplexe Datentransforma­tionsstrecken in einem Datenintegrationswerkzeug bereit. Vielmehr geschehen das Design der Analytics-Tabellen und die notwendige Datenaufbereitung an einem Ort - im Datenvirtualisierungs-Werkzeug. Auch die Pflege und Erweiterung der Tabellen kann vergleichsweise schnell erfolgen, etwa das Hinzufügen neuer Datenquellen und zusätzlicher Spalten.
com! professional: Wo liegen die Grenzen?
Iffert: Ein großes Problem ist die Geschwindigkeit. Wenn das Analytics-Tool Daten von der Virtualisierungs-Plattform abruft, stehen die im Normalfall erst zur Verfügung, wenn das langsamste Quellsystem seine Informationen geliefert hat. Viele (Quell-)Systeme sind zudem Massenabfragen nicht gewachsen: Fragt das Datenvirtualisierungs-Werkzeug die Umsätze der letzten drei Jahre direkt vom ERP-System ab, kann dies zu Problemen in der Systemstabilität und Verfügbarkeit dieser ERP-Software führen.
com! professional: Welche Funktionen und Merkmale sollten Werkzeuge für die Datenvirtualisierung umfassen?
Iffert: Datenvirtualisierung ist ein Konzept. Informationen werden nicht als „physische Kopie“ im Data Warehouse gespeichert, sondern stehen „virtuell“ zur Verfügung und zeigen die jeweils aktuellen Informationen zum Abfragezeitpunkt. Technisch ist das auf viele Weise möglich. Auf Anbieterseite sind in der DACH-Region vor allem Data Virtuality, Denodo und TIBCO in den letzten Jahren als Vorreiter der Technologie in Erscheinung getreten. Weitere Lösungen auf dem Markt sind etwa die von Actifio, Attivio, Domo, Informatica oder SAS.
com! professional: Welche weiteren technischen Ansätze gibt es?
Iffert: Klassische Datenbanken wie von IBM, Microsoft oder Oracle bieten über Funktionen wie „virtuelle“ oder „externe“ Tabellen schon seit Langem ähnliche Ansätze wie Datenvirtualisierungs-Werkzeuge.
Tools für die Datenintegration wiederum können zwar oft ihre Datenintegrationsstrecken nicht als SQL-View nach außen zur Verfügung stellen, wohl aber als API oder Service, der dann bei Bedarf flexibel gestartet werden kann, um Ergebnisse etwa als CSV-Datei zu erstellen. Und SAP HANA kann mit der Funk­tion „Smart Data Access“ externe Datenquellen an seine Plattform anschließen.
com! professional: Welche Trends sehen Sie?
Iffert: In vielen Unternehmen kommen Daten in diversen „Datensilos“ vor. Um ihre Datenlandschaft zu optimieren oder zu modernisieren, etwa indem sie ein Data Warehouse einrichten, das sie mittels professioneller Datenintegrations-Werkzeuge füllen, kann sich Datenvirtualisierung als Brückentechnologie für das Prototyping oder als Ergänzung eignen.
Seit Jahren ein wichtiger Trend ist Selfservice BI. Bislang lag der Schwerpunkt hier auf der Nutzung von vorbereiteten Daten. Mehr und mehr Fachbereiche entwickeln jedoch auch Kompetenzen, um Daten aus Quellsystemen zu extrahieren und diese aufzubereiten. Fachbereichsorientierte Datenvirtualisierungs-Werkzeuge schließen hier die Lücke zwischen Selfservice BI und überfrachteten Datenintegrations-Tools.
com! professional: Was ist mit KI und maschinellem Lernen?
Iffert: Natürlich können auch Data Scientists von der Datenvirtualisierung profitieren, um sich die notwendigen Datensichten auf Datenbestände für die Entwicklung ihrer Data-Mining-Lösungen aufzubauen. Ein Punkt sei aber angemerkt: Unternehmen vergessen im KI-Hype heute leider oft noch die Operationalisierung. Data Scientists entwickeln zwar interessante KI-Prototypen, bauen diese aber nur selten in die operativen Prozesse ein. Somit stiften die teuren Entwicklungen selten einen messbaren Nutzen. Ein Grund ist oft die Herausforderung, die KI-Prototypen mit aktuellen Daten zu trainieren. Datenvirtualisierung kann hier als Lösung oder Brückentechnologie dienen.
Grundsätzlich empfehlen wir, Datenvirtualisierung als Bestandteil einer Datenstrategie zu sehen. Treiber dafür sind neben den angesprochenen Trends zunehmend regulatorische Verpflichtungen oder innerbetriebliche Bedürfnisse nach mehr Transparenz (Welche Daten gibt es im Unternehmen?), Datenqualität und Abgleich der Systeme untereinander. Dafür können Firmen auf Software wie Datenkataloge, Datenqualitäts- und Stammdatenmanagement-Lösungen sowie moderne Datenbank-Systeme zugreifen. Um nicht den Aufbau eines weiteren Tool-Zoos zu riskieren, sollte eine Planung etwa in Form einer Datenstrategie erfolgen.
Verwandte Themen