Echtzeit-Analyse dank Data Stream Processing

Im Gespräch mit Robert Metzger von Data Artisans

von - 11.01.2019
Robert Metzger
Robert Metzger: Co-Founder und Engineering Manager bei Data Artisans
(Quelle: Data Artisans )
Für das Stream Processing gibt es Frameworks wie Apache Spark. Viele Frameworks wurden allerdings erst im Nachhinein für die Verarbeitung von Datenströmen optimiert. Im Gegensatz dazu wurde Apache Flink speziell für die Datenstromverarbeitung programmiert.
Robert Metzger, Co-Founder und Software Engineer bei Data Artisans, dem Unternehmen hinter Apache Flink, erklärt dessen Vorteile.
com! professional: Herr Metzger, worin besteht eigentlich der Unterschied zwischen herkömmlicher Datenanalyse und Stream Pro­cessing?
Robert Metzger: Anstatt Daten in einer Datenbank oder einem Data Lake zu speichern und abzufragen, um daraus Erkenntnisse zu gewinnen, werden die Daten in Echtzeit verarbeitet und analysiert. Mit Stream Processing werden die Daten sofort in die digitale Wertschöpfungskette eingebunden. Unternehmen gewinnen Erkenntnisse bereits in dem Moment, in dem die Daten produziert werden, also dann, wenn sie am wertvollsten sind, und können unmittelbar darauf reagieren.
com! professional: Das funktioniert ja zum Beispiel auch schon mit Apache Spark - warum wurde zusätzlich Flink entwickelt und was macht Flink anders?
Metzger: Spark war konzipiert als ein besserer Batch-Prozessor im Vergleich zu MapReduce, der die Stream-Verarbeitung durch Aufteilung des Streams in immer kleinere Micro-Batches durchführt. Das Ergebnis ist ein System, das auf den ersten Blick oder in der Proof-of-Concept-Phase für die meisten Stream-Verarbeitungszwecke ausreichend erscheint. In der Praxis ist jedoch oft eine übermäßige Abstimmung von Workload-, Cluster- und Spark-spezifischen Details erforderlich. Apache Flink benutzt intern keine Micro-Batches, sondern verwendet eine Echtzeit-Engine, die Daten ohne Verzögerung verarbeitet.
com! professional: Und für welche Anwendungsfälle eignet sich Flink genau?
Metzger: Apache Flink befasst sich mit verschiedenen Anwendungsfällen, von der Echtzeitbetrugserkennung über das Kapitalrisikomanagement bis hin zu Produktempfehlungen in Echtzeit, Suche, Anomalie-Erkennung und anderen Anwendungen. Seit der Einführung von Apache Flink kommen täglich neue, vielfältige und vor allem umfangreiche Anwendungsfälle bei Unternehmen wie Netflix, Uber, Lyft, Ali­baba, ING, Verizon und anderen hinzu.
com! professional: Sie haben kürzlich zusätzlich die Technologie Streaming Ledger vorgestellt. Was hat es damit auf sich?
Metzger: Dabei handelt es sich um eine Technologie für serialisierbare, verteilte ACID-Semantik (Atomicity, Consistency, Isolation, Durability) direkt auf Datenströmen. Diese Technologie öffnet die Türen der Stream-Verarbeitung für eine ganze Reihe neuer Anwendungen, die bisher auf relationale Datenbanken zurückgreifen mussten.
Mit technologischen Fortschritten wie diesem und zunehmender Akzeptanz können wir davon ausgehen, dass die Technologie wachsen, reifen und zum neuen De-facto-Standard-Framework für die Datenverarbeitung avancieren wird, da immer mehr Unternehmen softwaregesteuert und in Echtzeit arbeiten.
com! professional: Unternehmen können heute aus einer Vielzahl von Tools für ihre Analytics-Projekte auswählen - Open-Source-Frameworks wie Spark und Flink oder kommerzielle Software-Lösungen von großen Anbietern. Wie finden sie da überhaupt das für sie Richtige?
Metzger: 95 Prozent der Unternehmen nutzen bereits Open-Source-Software in ihren geschäftskritischen IT-Portfolios, unabhängig davon, ob sie es wissen oder nicht - zum Beispiel indirekt durch kommerzielle proprietäre Software unter Verwendung von Open-Source-Bibliotheken.
Open-Source-Software ermöglicht es dem Chief Information Officer, die zugrundeliegenden Fähigkeiten, Funktionen und Lösungen einer frei verfügbaren Plattform in einem ausgewogenen Ansatz mit anderen Teilnehmern zum gegenseitigen Nutzen weiterzuentwickeln.
Durch die Verkürzung der Innovationsphase für die erwartete Technologie kann sich jede IT-Abteilung auf ihre eigene Differenzierung als Wettbewerbsvorteil konzentrieren und so schneller Innovation und Markteinführung vorantreiben.
Mit der Entscheidung der CIOs für Open-Source-Software und durch Innovationen in der Community wird die Abhängigkeit von bestimmten Anbietern reduziert. Auf diese Weise werden traditionelle und innovative Anbieter dazu angeregt, an einem Ökosystem teilzunehmen, das sich auf Open-Source-Technologien konzentriert, um ihre Vision und Geschäftsstrategie zu verwirklichen.
Verwandte Themen