Manchmal drängt sich der Eindruck auf, dass die Anbieter von IT-Lösungen und Beratungsfirmen ständig neue Hype-Themen erfinden, um den Nutzern von IT-Systemen, Anwendungen und Cloud-Ressourcen neue Produkte und Dienstleistungen verkaufen zu können. Auf den ersten Blick gilt das auch für das Thema Observability. Dieser Ansatz wird als Erweiterung von Lösungen für das Logging und Monitoring gehandelt, mit denen IT-Fachleute die Performance, Verfügbarkeit und Sicherheit von Anwendungen, IT-Infrastrukturen und Cloud-Services überwachen. Doch Observability hat sehr wohl seine Berechtigung. Ein Grund: „Die Komplexität moderner IT-Infrastrukturen steigt ständig an. Damit wächst die Zahl der Stellen, an denen es zu Problemen kommen kann“, sagt Frederik Bijlsma, Senior Director Central EMEA von VMware Tanzu.

Dass Infrastruktur- und Anwendungsumgebungen immer komplizierter werden, ist auf mehrere Faktoren zuzuführen. Vereinfacht gesagt, haben sich monolithische IT-Umgebungen zu Mechanismen weiterentwickelt, in denen immer mehr Räder ineinandergreifen, so Klaus Kurz, Senior Director Solution Consulting Central Europe bei New Relic, einem Anbieter von Observability-Lösungen: „Cloudnative Technologien, hybride Infrastrukturen, die Verwendung von Microservices, Container-Services und DevOps-Konzepte lassen komplexe Systeme entstehen. Services ändern sich nun laufend. Außerdem verkürzen sich die Implementierungszyklen.“

Weil Anwendungen sich gegenseitig beeinflussen, können laut Kurz zudem neue oder weiterentwickelte Services Auswirkungen auf andere Systembereiche haben. Die Folgen bekommen Unternehmen täglich zu spüren. Laut der Studie „Observability Forecast 2022“ von New Relic gaben 63 Prozent der Unternehmen in der DACH-Region an, dass sie mindesten einmal pro Woche von IT-Ausfällen betroffen sind, die signifikante wirtschaftliche Folgen haben.

Monitoring reicht nicht

Allein mithilfe der Daten, die Monitoring-Tools bereitstellen, lassen sich solche negativen Effekte nicht vermeiden: „Etliche Unternehmen betreiben Multi-Cloud-Infrastrukturen mit Tausenden von Anwendungen und Millionen von Microservices. Jeder Tipp-, Klick- oder Wischvorgang eines Benutzers, jede neue Code-Implementierung oder Architekturänderung und jeder versuchte Cyberangriff erzeugt Daten, die erfasst und analysiert werden können. Hinzu kommen kontinuierliche Software-Release-Zyklen. Dies hat eine Datenexplosion zur Folge, die von Menschen nicht mehr zu bewältigen ist“, betont Alexander Zachow, Regional Vice President EMEA Central bei Dynatrace.

Monitoring stößt zudem aus einem weiteren Grund an Grenzen: Solche Lösungen überwachen ein IT-System anhand von vorab definierten Parametern wie Auslastung der Prozessoren, Netzwerkbandbreite und Ausfallzeiten. Die Grundlage bilden somit planbare und erfassbare Anforderungen und Fragen, etwa „Wie hoch ist die Auslastung der CPUs und des Arbeitsspeichers von Server A?“ oder „Hält die Anwendung B die vorgegebenen Antwortzeiten ein?“. Solche Fragen geben die IT-Fachleute eines Unternehmens vor. Das heißt, sie stützen sich auf „bekannte Unbekannte“ wie CPU-Leistung und Antwortzeiten. Eine Monitoring-Software zeigt auf, ob Fehler in einer bestimmten IT-Komponente auftreten beziehungsweise ob ein Grenzwert überschritten wurde.

Dieses Konzept weist Defizite auf, wenn zu viele Variablen vorhanden sind, etwa Microservices, verteilte Anwendungen, IT-Umgebungen, die Cloud- und On-Premises-Ressourcen kombinieren und möglicherweise über mehrere Standorte verteilt sind. Dann muss die IT-Abteilung auch Antworten auf Fragen erhalten, die sie im Vorfeld nicht definiert hat. Wenn eine Anwendung nicht die gewünschte Performance aufweist, kann dies an IT-Systemen im eigenen Rechenzentrum, an Public-Cloud-Services oder einem Update von System- oder Anwendungs-Software liegen. Auch Netzwerkverbindungen, ein Microservice und eventuell ein Cyberangriff kommen als Ursachen infrage.

Durchblick durch Observability

Hier kommt Observability ins Spiel. „Neben dem Monitoring-Part umfasst ein solches Konzept auch Log-Daten, das Tracing sowie Metriken. Dieser ganzheitliche Ansatz hat den Vorteil, dass Probleme effizient identifiziert und gelöst werden können“, sagt Martin Bauer, Partner beim IT-Dienstleister Cluster Reply.

Ganzheitlich bedeutet, dass Observability den gesamten IT-Stack einbezieht: „Dazu zählen beispielsweise die Analyse von Anwendungen, Speicher, Dienste sowie Netzwerke – und das in Echtzeit“, erläutert Tommy Ziegler, Leader Sales Engineering bei Cisco Appdynamics. „Mit Observability verschaffen sich Unternehmen einen umfassenden Einblick in das Verhalten, die Leistung und den Zustand ihrer Applikationen. Dies schließt essenzielle Telemetriedaten mit ein, etwa Metriken, Ereignisse, Logs und Traces, die in IT-Umgebungen gesammelt werden“, so der Fachmann weiter. Im Unterschied zu Monitoring sind Anwender dadurch in der Lage, im Vorfeld mögliche Engpässe und Ursachen von Performance-Einbußen zu erkennen und Vorkehrungen zu treffen.

Eine immer wichtigere Rolle spielen dabei Künstliche Intelligenz und maschinelles Lernen: „Moderne Observability-Lösungen wie Alluvio IQ nutzen KI und Machine Learning, um Daten aus dem Monitoring der Network Performance und der Digital Experience zu korrelieren. Dadurch liefern sie verwertbare Erkenntnisse über geschäftsrelevante Ereignisse“, verdeutlicht Oliver Oehlenberg, Field Chief Technology Office EMEA bei Riverbed Technology. Idealerweise werden durch den Einsatz von KI, ML und weiteren datenwissenschaftlichen Ansätzen Muster, Trends, Korrelationen und Anomalien sichtbar.

Ein weiterer Vorzug von KI und ML im Zusammenhang mit Observability ist, dass beide Technologien die Zahl der fehlerhaften Meldungen und Daten verringern, ergänzt Frederik Bijlsma von VMware Tanzu: „Ein entscheidender Vorteil, den Observability bieten kann, sind intelligente Alarme. Sie unterscheiden Fehlalarme von Ernstfällen und filtern das ‚Grundrauschen‘ heraus. Lösungen wie VMware AI Genie nutzen KI und maschinelles Lernen, um Alarme noch smarter zu machen und Vorhersagen über die Performance zu treffen.“

Entlastung der IT-Abteilungen

Observability-Lösungen mit KI-Funktionen entlasten außerdem die IT-Abteilungen. Das ist vor dem Hintergrund des nach wie vor gravierenden Mangels an IT-Fachkräften ein wichtiger Faktor. Denn nach einer Studie des Digitalverbands Bitkom vom November 2022 fehlen in Deutschland 137.000 IT-Fachkräfte – ein neuer Rekordwert.

„KI-Funktionen übernehmen mühsame, zeit- und konzentrationsintensive Arbeiten – und nehmen dadurch viel Druck von den Mitarbeitenden“, sagt beispielsweise Klaus Kurz von New Relic. Eine KI-Instanz könne beispielsweise eigenständig Lösungsvorschläge und Handlungsempfehlungen erarbeiten sowie neuartige Fehler erkennen, an die Entwickler beim System-Roll-out noch gar nicht dachten. Es ist absehbar, dass eine KI im Rahmen von Observability-Aufgaben künftig verstärkt automatisiert Entscheidungen treffen und umsetzen wird – unter Aufsicht von IT-Experten.

„Performance wird von ‚unbekannten Unbekannten‘ bestimmt“

Je mehr IT-Infrastrukturkomponenten, Cloud-Dienste, Microservices und verteilte Anwendungen zusammenspielen, desto schwerer fällt es, die Performance und Verfügbarkeit einer IT-Umgebung sicherzustellen. Wie Observability den Einfluss von „unbekannten Unbekannten“ transparent macht, erläutert Stéphane Estevez, EMEA Director of Product Marketing Observability & IT Markets bei Splunk.

com! professional: Herr Estevez, es gibt mittlerweile ja zig Definitionen von Observability. Was versteht Splunk darunter?

Stéphane EstevezEMEA Director, Splunk
Quelle: (Quelle: Splunk)

Stéphane Estevez: Der Begriff tauchte auf, als Unternehmen damit begannen, in großem Maßstab Microservices und Container einzusetzen. Zuvor haben wir monolithische Anwendungen immer auf die gleiche Weise überwacht und Fehler behoben. Aber jetzt, da Anwendungen hochgradig verteilt sind, gibt es viele „unbekannte Unbekannte“, die sich auf die Gesamtleistung und Verfügbarkeit auswirken. Diese verteilten Dienste, die oft nur kurzfristig bestehen, lassen sich mit traditionellen Tools schwer beobachten.

com! professional: Was ist dazu nötig?

Estevez: Es fehlen wichtige Daten wie Logs, Metriken und Traces. Wir müssen diese auf eine neue Art sammeln, und zwar in Echtzeit unter Verwendung von Streaming-Technologien und in voller Wiedergabetreue. Um Observability zu verstehen, können wir die Analogie des Survivorship Bias verwenden (Verzerrung zugunsten der Überlebenden). Sie beschreibt einen logischen Fehler, den Menschen begehen, wenn sie sich auf das konzentrieren, was sie sehen können, statt nach dem zu suchen, was sie nicht sehen können.

com! professional: Observability soll also Zusammenhänge transparent machen, die sich mit klassischen Mitteln nicht erkennen lassen?

Estevez: Ja, Observability ist ein Datenproblem. Ich muss mich fragen: „Verfüge ich über alle erforderlichen Daten, um mein System beobachtbar zu machen und es dann auf die richtige Weise zu überwachen?“ Die meisten Tools für das Application Performance Management verwendeten vor Observability beispielsweise Stichproben von Daten. Das heißt, sie analysierten nur ein Prozent der Transaktionen, um Schwachstellen zu finden. Doch damals waren die Erwartungen der Benutzer niedriger. Heute müssen Unternehmen jede Transaktion jedes Benutzers verstehen, um sicherzustellen, dass die Ursache eines Problems schneller gefunden und der bestmögliche Service geboten werden kann.

com! professional: Können Sie ein Beispiel nennen, welche weiteren Daten nötig sind?

Estevez: Nehmen Sie ein Unternehmen, das seine virtuellen Maschinen bisher jede Minute überwacht hat. Daher wird das IT-Betriebsteam dies auch bei Containern tun. Doch das bedeutet, dass in den Zeitintervallen zwischen jeder Minute die Container unbeobachtet bleiben. Da Container allerdings oft sehr kurzlebig sind, kann es sein, dass ein Speicherleck oder ein anderes Problem in einem Zeitsegment von wenigen Millisekunden auftritt. Wenn die Überwachung nicht im selben Intervall stattfindet, kann ein Anwender daher Probleme bekommen und vielleicht nicht einmal bemerken, was zwischen beiden Messungen passiert ist. Werden dagegen Daten in Echtzeit erfasst, lassen sich Container besser und engmaschiger beobachten, Stichwort Observability.

com! professional: Das heißt, IT-Abteilungen müssen umdenken?

Estevez: Ja, Observability ist eine Denkweise. Wie auch immer künftige IT-Technologien und Codierungstechniken aussehen, müssen wir uns vor Augen halten, dass wir derzeit nur wissen, dass wir eben nicht alles wissen. Daher sollten wir weiter nach den unbekannten Daten suchen, die erforderlich sind, um Systeme beobachtbar zu machen. Denn ein immer größerer Teil der Interaktionen zwischen Kunden und Unternehmen findet digital statt. Daher können es sich Firmen nicht leisten, blind zu sein und dies zu bleiben, wenn es um die tatsächliche Leistung von Anwendungen aus Sicht der Endnutzer geht.

Drei Säulen – oder mehr

Der klassische Observability-Ansatz beruht auf den folgenden drei Säulen:

Logging: Klassische Log-Daten, die in großer Zahl anfallen und erfasst, konsolidiert und visualisiert werden müssen.
Metriken: Sie sind wichtig, damit sich die Performance von Anwendungen und IT-Umgebungen über einen längeren Zeitraum hinweg kontrollieren lässt. Diese Metriken erstellt das Observability-Tool. Beispiele sind klassische Wert wie CPU-Auslastung und Latenzzeiten, aber auch die Zahl der Instanzen von Microservices und die „Readiness“ von Containern.
Tracing/Traces: Die Zahl und Wege der Anfragen der Services, aus denen moderne Anwendungen aufgebaut sind. Diese Anfragen zielen unter anderem auf externe IT-Ressourcen. Bei Applikationen verfolgen Traces die gesamte „Reise“ einer Anfrage eines Nutzers, vom Start einer Anwendung auf einem Endgerät bis hin zu den Prozessen, die im Back-End ausgelöst werden.

Allerdings sind Diskussionen darüber entbrannt, ob nicht weitere Elemente berücksichtigt werden müssten. Dazu zählen die Abhängigkeiten (Dependencies) von Anwendungen von anderen Applikationen, IT-Komponenten und Ressourcen in Unternehmensrechenzentren und Cloud-Data-Centern.

Data Scientists und DevOps-Teams wiederum wollen die Herkunft und Qualität von Daten (Data Lineage) als weitere Säule in das Modell aufnehmen. Diese Überlegungen stellen sie auch vor dem Hintergrund an, dass
das Management von Daten und die Kontrolle über solche Informationsbestände für viele Unternehmen eine zentrale Rolle spielt.

Wichtig ist angesichts dieser Tendenzen, dass sich keine spezialisierten Observability-Lösungen herausbilden, die nicht mehr mit anderen Lösungen Daten austauschen können. Dies würde dem Ansatz zuwiderlaufen, Datensilos zu vermeiden. Stattdessen sollten Lösungen zur Wahl stehen, die sich durch einen großen Funktionsumfang, offene Schnittstellen, eine Vielzahl von Integrationen mit anderen Tools und IT-Lösungen sowie zentrale Dashboards auszeichnen.

Do it Yourself oder Komplettlösung

Auf welche Art von Observability-Lösungen ein Unternehmen zurückgreift, hängt davon ab, welche Anforderungen es hat und wie es um die Ressourcen der IT-Abteilung bestellt ist. Unternehmen mit einer hohen IT-Affinität und einer personell gut bestückten IT-Abteilung haben die Option, mithilfe von Open-Source-Tools und Frameworks wie Open Telemetry selbst eine Observability-Umgebung aufzubauen.

IT-Dienstleister wie etwa Consol Software aus München favorisieren ebenfalls quellenoffene Werkzeuge, wenn sie entsprechende Projekte bei Kunden umsetzen. Zu diesen Tools zählen beispielsweise Grafana, Prometheus, Loki und Jaeger.

Die einfachere Wahl sind Komplettlösungen. Sie stehen je nach Anbieter als Cloud-Service (SaaS), als Hosted Services oder als Software für den Einsatz im Unternehmensrechenzentrum bereit. Mittlerweile haben so gut wie alle führenden Anbieter von Lösungen für Application Performance Monitoring (APM), Monitoring und Logging ihre Produkte in Richtung Observability weiterentwickelt. Dies erfolgt teilweise durch die Übernahme von kleineren Anbietern, etwa im Fall von IBM durch den Kauf von Instana sowie bei Servicenow, das Lightstep und Era Software übernahm. Wichtig ist jedenfalls, dass die Lösung Standards wie Open Telemetry unterstützt und nicht dazu führt, dass sich der Nutzer mit einem Vendor-Lock-in konfrontiert sieht.

Außerdem sollten Observability-Lösungen Automatisierungsfunktionen bereitstellen. Das Gleiche gilt für die Option, Telemetriedaten mithilfe von Zeitreihenuntersuchungen zu analysieren, so Oliver Oehlenberg von Riverbed. „Das System sollte zudem eine Plattform nutzen, die alle Beteiligten möglichst einfach konfigurieren können“, ergänzt Martin Bauer von Cluster Reply.

Fazit & Ausblick

„Ein umfassender Observability-Ansatz kann IT- und DevOps-Teams dabei helfen, hybride und Multi-Cloud-Umgebungen kontinuierlich zu analysieren, anzupassen und zu automatisieren. Das Ergebnis: Diese Teams agieren nicht mehr reaktiv, sondern optimieren proaktiv die IT-Strukturen“, fasst Alexander Zachow von Dynatrace die Vorteile von Observability zusammen.

Doch diese Botschaft scheint in vielen Unternehmen in Deutschland noch nicht angekommen zu sein, wie Martin Bauer von Cluster Reply bemängelt: „Aufgrund der späten Adaption der Cloud-Technologie ist Observability für deutsche Unternehmen noch ein neues Thema. Häufig wird es als ‚Beifang‘ bei der Transformation zu agilen Prozessen, DevOps oder cloudnativen Applikationen eingestuft.“

Doch ein „Abfallprodukt“ ist Observability in keinem Fall. Wer die Kontrolle über eine moderne IT-Umgebung mit On-Premises- und Cloud-Komponenten, Microservices und Containern behalten möchte, wird nicht umhinkommen, sich mit dem Thema zu beschäftigen. Sonst riskiert er, dass die Reise ins digitale Zeitalter zu einem Blindflug wird.

Transparenz bei Anwendungen und Infrastruktur