Der Schlüssel zum Datenschatz

Vorteile von Data Meshs

von Bernd Reder - 21.09.2023

Bereits diese Basiselemente machen deutlich, dass die Implementierung eines Data-Mesh-Ansatzes mit einem nicht zu unterschätzenden Aufwand verbunden ist. So müssen Organisationsstrukturen umgebaut und Aufgaben neu verteilt werden. Daher gilt es abzuwägen, ob sich der Aufwand lohnt. Für Genevieve Broadhead steht das außer Frage: „Data Mesh hat zwei Vorteile. Erstens ist dasjenige Geschäftsteam Dateneigentümer, das die Daten am besten versteht und somit die Möglichkeit hat, sie zu ändern und zu erneuern. Zweitens sind die Daten im gesamten Unternehmen zuverlässig verfügbar, so dass sie für viele andere betriebliche und analytische Anwendungsfälle genutzt werden können“, etwa um Innovationen und die Digitalisierung voranzutreiben.

Ein weiterer Pluspunkt ist, dass das dezentrale Konzept Flaschenhälse beseitigt: „Es entstehen keine Engpässe durch die Zentralisierung von Betrieb, Eigentum und Verwaltung von Daten und Analysen“, unterstreicht Benjamin Bohne von Cloudera. Hinzu kommt, dass Fachleute die Aufgabe übernehmen, Daten und Erkenntnisse zu erstellen und als Produkte bereitzustellen. „Daher werden sie nicht als Daten wahrgenommen, sondern als Projekt. Das führt zu eine verbesserten Langlebigkeit und Qualität sowie einem höheren Wert.“

Strukturelemente eines Data Mesh: Source, Data Products, Apps & Analytics Tools

(Quelle: Qlik )

Mit einem Data Mesh soll zudem ein Nachteil herkömmlicher Dateninfrastrukturen überwunden werden: dass Daten in separaten Silos abgelegt werden. Dies führt sonst oft zu einem höheren Bedarf an Storage-Ressourcen und verhindert eine übergreifende Sicht auf Informationen. Dadurch wiederum ist es schwieriger, Daten aus unterschiedlichen Silos zu kombinieren und zu analysieren. Dies kann zu Lasten der Reaktionsfähigkeit und Time-to-Market-Zeiten von Unternehmen und deren Entwicklungsabteilungen gehen.

Allerdings weisen Kritiker darauf hin, dass auch das Domänen-Modell eines Data Mesh dazu führen kann, dass abgeschottete Bereiche entstehen. Hinzu kommt, dass es möglicherweise zu einem Wildwuchs in Bereichen wie der Datenspeicherung und dem Data Management kommt. Dies ist dann der Fall, wenn viele Data Stores und APIs zum Einsatz kommen. Dann steigt der Aufwand für die Verwaltung und damit die Belastung der zuständigen IT- und Datenspezialisten. Und dies ist angesichts des Mangels an solchen Fachleuten etwa in Deutschland und der Schweiz problematisch.

„Um Data Mesh im Unternehmen einzusetzen, muss das bisher zentral vorhandene technische Spezialwissen auf die Business Units verteilt werden. Diese Anpassung stellt für kleinere Unternehmen, die hier teilweise unterbesetzt sind, eine große Herausforderung dar“, bestätigt Till Sander, Chief Technology Officer beim Business-Intelligence-Beratungshaus Areto Consulting in Köln.

Dezentralisierte Datenbestände stellen zudem nach seinen Erfahrungen erhöhte Anforderungen an die Auffindbarkeit und Dokumentation von Informationen. „In diesem Zusammenhang ist der Einsatz eines Data Catalog unerlässlich.“

Die Rolle von Data Fabrics

Im Zusammenhang mit der Debatte über Data Meshs drängst sich vielen Unternehmen unweigerlich eine weitere Frage: Was soll eine Firma tun, die bereits viel Geld und Ressourcen in Lösungen wie Data Fabrics und Data Lakes investiert hat? Die gute Nachrichtig lautet: Storage- und Datenspezialisten sind sich darin einig, dass sich diese Technologien mit einem Data Mesh verbinden lassen.

„Technisch gesehen verfolgt Data Mesh einen dezentralen Ansatz, bei dem die Umsetzung einzelnen Teams überlassen bleibt. Data Fabric orientiert sich an der Idee des klassischen zentralen Data Warehouse, ergänzt diese aber durch ‚moderne‘ Building Blocks, etwa Data Pipelines und Data Lakes“, erläutert Till Sander. Daher könne ein Data Mesh durchaus als „Governed Mesh“ auf Basis einer zentralen Plattform entwickelt werden, bei der die Teams auf einer Data Fabric mit dem gleichen Technologieportfolio arbeiten.

Technische Basis und Storage

Auch Cloudera plädiert für ein „Sowohl als auch“ von Mesh und Fabric. Bei beiden Ansätzen sei das Datenmanagement das Herzstück. Es gibt jedoch nach Einschätzung von Benjamin Bohne auch Unterschiede: „Eine Data Fabric erschließt Daten in großem Umfang, stellt sie in einen geschäftlichen Kontext und macht sie auf sichere und konforme Weise als Self-Service verfügbar. Data Mesh baut dagegen auf dem Wissen auf, das aus allen Datenquellen gesammelt wurde, um die Daten entlang der Domänen bereitzustellen und jeden Datensatz auffindbar zu machen“. Data Mesh sei ohne ein tiefes Datenverständnis und angemessene Data Governance, also eine Data Fabric, nicht möglich.

Zum selben Ergebnis kommt NetApp-Fachmann Marc Kleff, insbesondere vor dem Hintergrund, dass Daten sowohl im Unternehmens-Datacenter als auch in Cloud-Umgebungen gespeichert werden. „Eine Data Fabric ist ein Architekturkonzept für die hybride Multi-Cloud-Welt. Das heißt, sie optimiert Anwendungsfälle wie Data Protection, Daten-Tiering, Produktivdatenbereitstellung, Security und Compliance sowie die Multi-Cloud-Nutzung. Damit bildet die Data Fabric das Fundament für Data-Mesh-Ansätze.“

Apropos Fundament: Wer Data Fabrics oder Meshs einsetzen möchte, sollte bei der Planung prüfen, ob die Storage-Ressourcen für solche Konzepte ausgelegt sind. „Entscheidend ist, dass Daten genau dort abgerufen, analysiert und verarbeitet werden können, wo sie benötigt werden. Dies erfordert Datenmobilität, etwa die Fähigkeit, Anwendungen mit ihren Daten von einem Cloud-Anbieter zu einem anderen zu verschieben“, sagt Remko Deenik, Technical Director Europe beim Storage-Anbieter Pure Storage.

Zudem muss es möglich sein, auf alle Daten zuzugreifen, gleich, ob diese in einer Cloud, Unternehmensrechenzentren oder am Edge vorliegen. Das erfordert laut Deenik Speichersysteme und eine Systemsoftware, dies es ermöglicht, die Datenverwaltung zu vereinfachen und Silos aufzubrechen.

Glossar

Von Data Mesh bis Data Intelligence

Die wichtigsten Technologien, Architekturen und Vorgehensweisen im Bereich Data sind:

Data Mesh: Domaingesteuerte, analytische Datenarchitektur, in der Daten als Produkt behandelt werden. In dieser dezentralisierten Architektur werden Daten einzelner Business Units, also Domains, nicht in einer großen Plattform zusammengefügt, sondern von den zugehörigen Business Units betreut, aufbereitet und gespeichert.

Data Warehouse: Zentrale Datenbank für gefilterte, strukturierte Daten, die für bestimmte Anwendungsfälle vorgesehen sind. Im Vergleich zu Data Lakes sollen sie einen höheren Strukturierungsgrad aufweisen.

Data Lake: Ein Data Lake ist ein zentrales Auffangbecken für unbearbeitete Daten aller Art, auch für unstrukturierte Informationsbestände. Ein Nachteil ist, dass viele Data Lakes große Speicherkapazitäten erfordern, Stichwort Storage-Kosten. Hinzu kommt das Risiko, dass sich Data Lakes in „Datensümpfe“ (Data Swamps) verwandeln.

Data Fabric: Eine Data Fabric zielt darauf auf ab, eine einzelne, virtuelle Schicht für die Verwaltung verteilter Daten einzurichten. Eine Data Fabric ist technologiezentriert, während sich ein Data Mesh auf organisatorische Prozesse konzentriert. Dem Beratungsunternehmen BARC zufolge zeichnet sich eine Data Fabric durch zwei weitere Eigenschaften aus: die Verbindung von verteilten Plattformen, Anwendungen, Daten und Nutzergruppen sowie Funktionen, welche die Anwender entlasten, etwa das Optimieren von Prozessen durch KI-basierte Analysen, ein automatisiertes Monitoring und Management sowie Sicherheits- und Governance-Maßnahmen.

Data Intelligence: Das Erfassen, Extrahieren und Verknüpfen von Metadaten sowie deren Analyse, etwa mittels maschinellem Lernen. Dies können Data-Intelligence-Plattformen übernehmen, die wiederum Teil einer Datenplattform sind.

Seite

Der Schlüssel zum Datenschatz

Vorteile von Data Meshs

Die Rolle von Data Fabrics

Technische Basis und Storage

Mehr zum Thema