Echtzeit-Analyse dank Data Stream Processing

So funktioniert’s

von - 11.01.2019
Herkömmliche Datenanalysen setzen auf eine Batch-orientierte Dateninfrastruktur, eine Stapelverarbeitung. Sie arbeiten nach der Regel „Data at rest“ - die Daten werden zunächst meist in einem Data Warehouse abgelegt und zu einem späteren Zeitpunkt verarbeitet. „Bei klassischen Reporting-Anwendungen vergehen oft Tage oder Wochen, bis die Ergebnisse von Analysen in Handlungen resultieren“, so Frank Waldenburger, Director Sales Consulting Central Europe bei Informatica, einem Unternehmen, das Datenintegrations-Software anbietet. Beim Data Stream Processing wird hingegen alles gleich analysiert und nur die Daten, die für spätere Analysen wertvoll sein könnten, gelangen ins Data Warehouse.
Das Prinzip des Data Streamings ist dabei eigentlich recht einfach: Ein Sender, etwa ein Sensor, erzeugt einen permanenten Datenstrom in einem wiederkehrenden Format, ein Empfänger, etwa ein Cloud-Server, verarbeitet diese Daten und stellt sie zum Beispiel grafisch dar oder führt je nach Datenlage eine bestimmte Aktion aus.
Frank Waldenburger
Frank Waldenburger
Director Sales Consulting Central Europe bei Informatica
Foto: Informatica
„Bei klassischen Reporting-Anwendungen vergehen oft Tage oder Wochen, bis die Ergebnisse von Analysen in Handlungen resultieren.“
Beim Data Stream Processing kommen Technologien zum Einsatz, um Daten „in Bewegung“ zu analysieren, also noch während des Transports. Ziel dabei ist es, Modelle anzuwenden und/oder Muster oder sonstige Auffälligkeiten zu finden, um in Echtzeit festzustellen, ob eine Handlung oder Intervention nötig ist, und diese gegebenenfalls zeitnah auszulösen. „Dabei werden Live-Daten beispielsweise unter Anwendung von Machine Learning oder anderen Techniken gegen Ergebnisse und Modelle gespiegelt, die häufig aus Batch-Verarbeitungen stammen“, wie Frank Waldenburger von Informatica das Data Stream Processing erläutert. „Die Stream-Verarbeitung analysiert die Daten, während sie das System durchlaufen, wobei die betroffenen Datenmengen und die Anforderungen an die Verarbeitungszeit es nicht zulassen, dass die Daten zuerst in einen Data Store oder eine Datenbank geschrieben werden“, ergänzt Rob Jones, Product Manager Apama bei der Software AG.
Beim Data Streaming ist zudem entscheidend, dass möglichst viele Daten dort analysiert werden, wo sie entstehen: in der Edge. „So kann das Grundrauschen gleich zu Anfang der Datenverarbeitungsstrecke von den wirklich relevanten Daten unterschieden werden - also von denen, die potenziell auf eine Störung oder eine Ano­malie hinweisen“, betont Cornelius Kimmer, Senior Solution Architect DACH beim Business-Intelligence-Anbieter SAS.
Rob Jones
Rob Jones
Product Manager Apama bei der Software AG
„Die Stream-Verarbeitung analysiert die Daten (…), wobei die betroffenen Daten-mengen und die Anforderungen an die Verarbeitungszeit es nicht zulassen, dass die Daten zuerst in einen Data Store oder eine Datenbank geschrieben werden.“
Die Daten in den Datenströmen haben eine zeitliche Reihenfolge und es gibt praktisch keine Volumengrenze. Es ist aber nur ein fortlaufender Zugriff auf den Datenstrom möglich – im Gegensatz zur herkömmlichen Analyse von Daten etwa in einem Data Warehouse, bei der ein sogenannter wahlfreier Zugriff auf alle Daten möglich ist. Mittels spezieller Algorithmen lassen sich jedoch beim Data Streaming einzelne Datensätze aufgrund ihres Inhalts auswählen und etwa zu einem neuen Datenstrom zusammenfassen, der dann für weitere Analysen zur Verfügung steht.
Dennoch lässt sich nur beschränkt in die Vergangenheit analysieren: „Während Analysen traditionell auf langen historischen Zeitreihen beruhten, um daraus Trends oder Muster abzuleiten, ist das Stream Processing Event-basiert“, wie Stephan Reimann zusammenfasst. Reimann ist Senior IT Specialist Big Data und Analytics bei IBM. Es werden also hauptsächlich aktuelle Meldungen ausgewertet.
Verwandte Themen