End-to-End-Monitoring zur Software-Überwachung

Zentrale Merkmale des End-to-End-Monitorings

von - 13.08.2020
Der erste zentrale Bestandteil eines ganzheitlichen End-to-End-Monitorings ist eine ausschließliche SaaS-Zentrierung des Service. Denn Unternehmen sollten nicht das System überwachen und verwalten müssen, dass eben diese Aufgabe für die eigenen Systeme übernehmen soll. Vor dieser Herausforderung stehen aktuell viele Unternehmen in der Wachstumsphase. Mit den vor Ort implementierten Monitoring- oder Open-Source-Tools sind sie nicht in der Lage, ihre Plattformen in großem Umfang auf dem aktuellsten Stand zu halten. Durch die SaaS-Zentrierung können wöchentlich eine Vielzahl von Updates und neuen Features quasi in Echtzeit bereitgestellt werden.
Ein weiterer Grundbaustein ist die ortsunabhängige, einfache und sofortige Instrumentierung. Drop-In-Instrumentation (agents) in allen gängigen Programmiersprachen und Cloud-Services generieren so innerhalb von Sekunden Einblicke für das Unternehmen. Es muss dafür keine individuelle Instrumentierung in Apps integriert werden. Zudem sollte auch die Integration externer Überwachungstelemetrie von Infrastrukturen und Anwendungen, die bisher mit Open Standards instrumentiert waren, nahtlos möglich sein.
Ein weiterer zentraler Aspekt ist der stetige Fokus auf die Anwendung, die der Kern der digitalen Erfahrung ist. Essenziell ist an dieser Stelle der umfassende Einblick in die Applikation und die Korrelation der Vorgänge innerhalb derselbigen. Das reicht von den Daten der laufenden Container, über Orchestrierungs-Komponenten bis hin zur zugrundeliegenden Infrastruktur.
Darüber hinaus gelten standardisierte und effiziente Workflows als Grundvoraussetzung für ein optimales End-to-End-Monitoring. Übersichtliche Dashboards, angepasst an individuelle Bedürfnisse, spielen dabei eine genauso große Rolle wie das Angebot vorgefertigter, kuratierter Workflows zur Fehlerbehebung ohne vorherige Konfiguration. Dadurch können alle Benutzer dieselben Informationen aus ihrem persönlichen Blickwinkel betrachten, egal ob es Spezialisten, Marketer, Unternehmensinhaber, Geschäftsführer, SREs (Site Reliability Engineers) oder Entwickler sind.
Des Weiteren gelten Echtzeit-Analysen als weiterer Kernbestandteil des End-to-End-Monitorings. Dabei sollten sich Unternehmen bei der Beurteilung des Ist-Zustandes jedoch nicht nur auf Key-Performance-Indikatoren verlassen. Wirkliche Erkenntnisse basieren auf der Erfassung jeder einzelnen benutzerinitiierten Interaktion. Diese Informationen wiederum müssen über eine API, eine Abfragesprache und Dashboards zur Verfügung gestellt werden. Dadurch sind Nutzer nicht durch die Anzahl an Dimensionen oder eine hohe Kardinalität eingeschränkt. Das Warten auf Antworten entfällt.
Abschließend spielt die Skalierbarkeit eine wesentliche Rolle: Um für IT-kritische Ereignisse, wie zum Beispiel Black Friday, Produkteneinführungen oder Rabattaktionen zu unterstützen, muss sichergestellt werden, dass auch sehr große Datenmengen ohne Ausfall oder Verzögerung verarbeitet und ausgewertet werden können.

Die Rolle von ML und KI: Gegenwart und Zukunft von AIOps

Es gibt bereits jetzt Anbieter, die schon seit längerer Zeit Algorithmen und Techniken der Applied Intelligence in ihren Plattformen nutzen. Dies ist zum Beispiel bei Alert-Engine-Algorithmen, die auf Machine Learning basieren, der Fall. Sie basieren Warnmeldungen auf historischen Trends und nicht auf fixen Grenzwerten. Und auch wenn eine Anwendung am Wochenende weniger genutzt wird, kann so sichergestellt werden, dass keine fehlerhaften Warnmeldungen verschickt werden. Es wird lediglich das tatsächliche Verhalten des Service widergespiegelt.
KI und maschinelles Lernen, angewandt auf den IT-Betrieb - auch AIOps genannt - ist als kritische Fähigkeit vollständig in die führenden Observability-Plattformen integriert.
Definitiv haben Maschinelles Lernen und künstliche Intelligenz das Potential, den modernen Softwarebetrieb auf verschiedene Arten gegenwärtig als auch zukünftig zu unterstützen: Zum einen durch eine fortschrittliche proaktive Erkennung, Korrelation und Benachrichtigung schwacher Signale oder seltener Muster, die sich über längere Zeit wiederholen.
Zum anderen durch die Reduzierung von Alarmen, -ermüdung und der Angst von Ausfällen beim Einsatz eines virtuellen SRE. Systeme werden immer komplexer, weshalb auch die Vorfälle, auf die Software-, Engineering- und DevOps-Teams reagieren müssen, immer komplizierter werden. Die Verwendung von Microservices-Architekturen, Containern und Serverless-Infrastrukturen tragen zu dieser Komplexität ebenfalls bei. Probleme mit einem Dienst können deshalb zu weitreichenden Ausfällen führen, die letztendlich zahlreiche Alerts im gesamten Stack auslösen - eventuell sogar von mehreren Monitoring Tools. Oberste Prämisse ist es deshalb, den Überblick zu behalten und das eigentliche Problem zu identifizieren.
Ein weiteres Anwendungsgebiet von ML und KI besteht darin, das Virtual SRE-Konzept auf die Formulierung von Empfehlungen für Abhilfemaßnahmen mit hoher Erfolgsaussicht auszudehnen. Dazu zählen auch die anschließende automatische Auslösung einiger operativer Runbooks und Aktionen für Vorfälle, bei denen Ursache und Abhilfe mit hoher Wahrscheinlichkeit bekannt sind - wie etwa der wiederholte automatische Neustart von Containern ehe eine Alarmmeldung versendet wird. Es ist auch denkbar, dass sich ML und KI auf die Wiederherstellungsautomatisierung ausweiten, bei denen Operators, DevOps-Teams und SREs künftig eben nur dann zu Rate gezogen werden müssten, wenn die AIOps-Plattform den Fehler nicht selbst beheben kann.
Es könnte allerdings noch eine gewisse Zeit vergehen, bis das der Fall ist, weil dieses Feld wegen der nahezu unendlichen Kombinationsmöglichkeiten in echten Anwendungsfällen, Unternehmensprozessen sowie -Tools und Architekturen äußerst komplex ist. Dadurch ist es wahrscheinlicher, dass künstliche Intelligenz und maschinelles Lernen in diesem Bereich nur in stark eingegrenzten und Teilen des Ökosystems langfristig umsetzbar sind. Konkurrenz bekommen die Technologien hier außerdem von Wiederherstellungs- und Autoskalierungs-Anwendungen, die aktuell das Potenzial haben, wesentlich schneller voranzukommen als die Wiederherstellungsautomatisierung.
Verwandte Themen