Echtzeit-Analyse dank Data Stream Processing

Veränderungen in der IT

von - 11.01.2019
Vorteil von Datenanalysen in Unternehmen
Welche Vorteile ergeben sich aus der Nutzung digitaler Daten? Für die meisten Unternehmen ist das vor allem eine höhere Entscheidungssicherheit.
(Quelle: Commerzbank-Studie "Der Rohstoff des 21. Jahrhunderts: Big Data, Smart Data - Lost Data?" (Mehrfachnennungen), n = 244 )
Der Einsatz von Datenanalysen in Echtzeit bringt innerhalb eines Unternehmens auch Veränderungen im Umgang mit den Daten mit sich. Welche Überlegungen müssen Data Engineers und Software-Entwickler anstellen, wenn sie ihre Datenarchitektur von einem datenzentrischen Ansatz hin zur Datenstromverarbeitung verlagern?
Der Data-Streaming-Spezialist Data Artisans hebt für die Echtzeitdatenverarbeitung die folgenden Aspekte hervor:
Die Art und Weise, wie man im Unternehmen mit Daten umgeht, wird sich verändern: In monolithischen Systemen ruhen die Daten, während sie bei der Verarbeitung von Ereignisströmen laufend in Bewegung sind, um nutzbare Ergebnisse zu gewinnen.
Die Prioritäten zwischen Daten und Aktionen ändern sich: Die Dateninfrastruktur wechselt von einer Fokussierung auf die Aufbewahrung von Daten hin zu einer Reaktion auf Ereignisströme. Der Fokus richtet sich dabei auf den kontinuierlichen Fluss der Stream-Verarbeitung und die Priorisierung des Handelns aufgrund von Ereignissen.
Die Datenquelle wird angepasst: Die Datenstrategie wird sich auf die Datenautorität im Unternehmen auswirken. Von dem Datenspeicher in einer monolithischen Dateninfrastruktur verschiebt sich die Datenautorität hin zum Ereignisprotokoll als Datenquelle.
Die Rolle der Dateninfrastruktur im Unternehmen ändert sich: Mit der Umstellung auf Stream Processing verändert sich die Wahrnehmung der IT- und Datensysteme innerhalb des Unternehmens wesentlich. Die Dateninfrastruktur wird zum zentralen Nervensystem, das es einem Unternehmen ermöglicht, auf Ereignisse in Echtzeit zu reagieren und Entscheidungen zu treffen, genau zu dem Zeitpunkt, zu dem die Daten generiert werden und somit dann, wenn sie am wertvollsten sind.
Die Echtzeitverarbeitung von Daten erfordert in vielen Fällen auch eine grundlegende Veränderung in der IT-Architektur. Wenn man die Analyse nicht auf einen externen Dienstleister wie einen Cloud-Dienst auslagert, dann müssen die eigenen Datenspeicher in der Lage sein, eine sehr große Menge an gleichzeitig anfallenden Daten in sehr kurzer Zeit zu speichern. „Da es sich bei vielen Streaming-Daten um sehr kleine Datenblöcke handelt, die massiv parallel auf das Speichersystem schreiben, sind traditionelle Speichersysteme wie NAS oder Direct-Attached Storage nur bedingt dafür geeignet“, berichtet Markus Grau, Principal System Engineering beim Speicheranbieter Pure Storage. Das sei insbesondere dann der Fall, wenn die Daten auch auf dem gleichen System weiterverarbeitet werden sollen, ohne sie zuvor von einem Datensilo in ein anderes zu kopieren.
Markus Grau
Markus Grau
Principal System Engineering bei Pure Storage
Foto: Pure Storage
„Da es sich bei vielen Streaming-Daten um sehr kleine Datenblöcke handelt, die massiv parallel auf das Speichersystem schreiben, sind tradi­tionelle Speichersysteme wie NAS oder Direct-Attached Storage nur bedingt dafür geeignet.“
Dadurch dass beim Data Stream Processing enorme Mengen von Datenpunkten anfallen, die in kürzester Zeit analysiert werden sollen, setzt man vermehrt Systeme mit flottem Flash-Speicher ein, um diesen erhöhten Anforderungen gerecht zu werden. Hinzu kommt, dass die Datenmengen wie erwähnt stetig zunehmen. Speichersysteme müssen daher in der Lage sein, linear mit dem Volumen der Daten zu wachsen - sei es bei der Performance oder der Kapazität. Zusätzlich dazu sollten die Speichersysteme mit überschaubarem Aufwand verwaltbar bleiben und auch hohe Anforderungen an Verfügbarkeit und Performance erfüllen - möglichst auch im Fehlerfall.
„‚Time to Result‘ ist das neue Messkriterium und dies ist nicht mit traditionellen Architekturen wie Direct-Attached-Storage-Silos oder Data Lakes zu bewältigen“, so Markus Grau. Diese würden schlicht und einfach nicht für das Stream Processing entwickelt.
Grau geht davon aus, dass immer mehr Bereiche in einem Unternehmen einen größeren Anteil ihrer Daten zu Analysezwecken nutzen. Die sogenannten kalten Daten werden daher immer weniger und gleichzeitig steigt der Bedarf an hoch performanten, skalierbaren Speichersystemen zur Analyse der nun „heißen“ Daten.
Verwandte Themen