Unternehmen wollen krisenfest werden

Werkzeuge für IT-Resilienz

von - 09.04.2021
Business Continuity Management (BCM)
Business Continuity: Ein Bestandteil von Business-Resilienz ist dem Analystenhaus Gartner zufolge ein Business Continuity Management (BCM).
(Quelle: Gartner)
Zu den klassischen Werkzeugen im Bereich IT-Resilienz zählen Disaster Recovery (DR) und Business Continuity Management (BCM). Beide Bereiche wachsen zusammen. Backup konzentriert sich darauf, Kopien von Dateien, System-Images oder Datenbanken auf anderen Speichermedien abzulegen - im eigenen Rechenzentrum oder auf Systemen von (Cloud-)Service-Providern. Disaster Recovery ergänzt dies um Vorgehensweisen, Systeme und Services, um komplette IT-Umgebungen nach einem „Desaster“ schnellstmöglich wiederherzustellen. Das schließt Daten, Server, Netzwerkverbindungen, Virtual Machines, Anwendungen und Prozesse mit ein. Diese werden in ein entferntes Rechenzentrum oder eine Cloud-Umgebung repliziert und stehen für den Notfalleinsatz zur Verfügung.
Nahezu alle Anbieter von Public-Cloud-Plattformen wie AWS, Microsoft, Google, IBM und Ionos Cloud bieten cloudbasierte Backup- und DR-Dienste an. Doch auch die Anbieter traditioneller Backup- und DR-Lösungen setzen zunehmend auf die Cloud, teils in Zusammenarbeit mit Hyperscalern wie AWS oder Microsoft. Einige Beispiele sind NetApp, StorageCraft, ein Unternehmen von Arcserve, Acronis und Arcserve, aber auch Anbieter wie VMware und Veeam.
Markus Grau
Markus Grau
Regional Director DACH bei Pure Storage
www.purestorage.com/de
Foto: Pure Storage
„Es gilt, den Datenbestand zu schützen, den stetigen Zugriff darauf zu ermöglichen und ihn im Fall einer erfolg­reichen Attacke wiederherzustellen. Das heißt, Unter­nehmen müssen Hochverfügbarkeit implementieren.“
BCM ist im Vergleich zu DR eine Ebene höher angesiedelt und darauf ausgelegt, proaktiv den Folgen unerwarteter Ereignisse entgegenzuwirken. Gartner zufolge umfasst BCM Planungen, um die Verfügbarkeit von Ressourcen sicherzustellen, die der Geschäftsbetrieb erfordert. Das beginnt beim Telefon und Client-Systemen wie Notebooks und setzt sich über Netzwerkverbindungen, Datenbanken und Anwendungen fort. Eine zentrale Rolle bei BCM spielen die Geschäftsprozesse. Ein Business-Continuity-Plan definiert etwa, welche Kunden und Zulieferer besonders hohe Priorität haben oder welche Online-Angebote möglichst schnell wiederhergestellt werden müssen. Der Fokus eines BCM liegt stärker auf organisato­rischen Überlegungen, unterstützt durch Risikoabwägungen (Risk Management).
Unter den Anbietern von BCM-Lösungen und -Plattformen finden sich laut Gartner nur wenige bekannte Namen. Zu den Firmen, die auch in Deutschland über eine beträchtliche Zahl von Kunden verfügen, zählen Castellan, ServiceNow und Metric­stream. Allerdings unterhalten weitere BCM-Spezialisten in Deutschland Customer Support Center und Rechenzentren, über die sie ihre Services anbieten. Beispiele sind Fusion Risk Management, SAI Global, Galvanize und Continuity Logic.
Als Folge der Corona-Krise könnte Business Continuity Management einen Aufschwung verzeichnen. Zudem ist davon auszugehen, dass neben Beratungshäusern wie Accenture, TCS und Capgemini auch große Software-Firmen wie Microsoft, Oracle und SAP ihr Engagement in diesem Bereich ausweiten. Gleiches gilt für IT-Unternehmen wie Dell Enterprise, Cisco, HPE und IBM.
Tipps zur IT-Resilienz
Ein wichtiger Bestandteil einer Business-Resilienz-Strategie besteht darin, auch die IT-Umgebung proaktiv vor Ausfällen zu schützen. Um das zu erreichen, empfiehlt das Beratungshaus
TCS fünf Schritte.
Wegen der Digitalisierung von Prozessen und Angeboten spielt eine robuste IT-Umgebung eine zentrale Rolle in Unternehmen und öffentlichen Einrichtungen. Daher sollten Unternehmen den Faktor IT-Resilienz nicht unterschätzen, so TCS. Wenn Anwender eine Strategie dafür entwickeln, sollten sie nach Einschätzung des Technologieberatungsunternehmens vor allem die folgenden Punkte in Betracht ziehen: 
Mit KI Anomalien entdecken: Das Monitoring einer IT-Umgebung basiert auf individuellen Metriken für Systeme und Anwendungen. Treten Abweichungen auf, informieren gängige Monitoring-Lösungen die IT-Abteilung. Administratoren prüfen dann manuell, ob eine Anomalie beispielsweise auf Systemfehler oder gar einen Cyberangriff zurückzuführen ist. Diese Vorgehensweise ist in IT-Umgebungen, die sich permanent an geänderte Anforderungen anpassen müssen, nicht mehr zeitgemäß.
Einen Ausweg bieten Monitoring-Lösungen mit KI- und Machine-Learning-Funktionen. Sie ermitteln ohne manuelle Hilfe, welchen „Normalzustand“ Applikationen, Services und IT-Komponenten aufweisen. Wenn abweichende Muster erkannt werden, dann können solche Systeme automatisch Gegenmaßnahmen einleiten.
Selbstheilende IT-Infrastruktur: Solch ein Zustand lässt sich erreichen, wenn Ansätze wie die vorausschauende Analyse (Predictive Analytics) und Infrastruktur als Code (IaC) zum Einsatz kommen. Einem Kunden von TCS (ein europäischer Stahlproduzent) gelang es auf diese Weise, IT-Probleme weitgehend automatisch zu beheben. Das gilt für mehr als 80 Prozent der Vorfälle (Incidents). Die Vorteile: Fehler werden schneller behoben, und das mit einem Minimum an manuellen Eingriffen seitens der IT-Fachleute.
Unveränderliche IT-Umgebung: Bei diesem Konzept werden Services und Anwendungen nicht an neue Anforderungen angepasst, sondern komplett durch neue Versionen ersetzt. Das hört sich aufwendiger an, als es in der Praxis ist. Denn Software-Container, agile Entwicklungsmethoden sowie Ansätze wie DevOps und Infrastructure as Code machen solche Wechsel einfacher. Die Vorteile: die Möglichkeit, Services und Software präzise auf geänderte Gegebenheiten zuzuschneiden und kürzere Implementierungszeiten. Außerdem sinkt das Risiko, dass sich durch die Anpassung von bestehenden Applikationen Fehler einschleichen. Container ermöglichen es zudem, auf einfache Weise auf einen früheren Release-Stand zurückzugehen. Das kommt der Resilienz zugute.
Automatisierung des Disaster Recovery: DR-Lösungen sollten so aufgebaut sein, dass sich geschäftskritische Anwendungen und Daten quasi mit einem Mausklick wiederherstellen lassen. Das heißt, auch im Bereich Disaster Recovery ist es wichtig, Vorgänge zu automatisieren. Das gilt auch für Übungsläufe, bei denen der Ausfall und das Wiederherstellen kritischer IT-Ressourcen simuliert werden. Von einer Automatisierung von DR-Funktionen profitieren nicht nur große Unternehmen mit komplexen IT-Umgebungen, sondern auch kleine und mittelständische Firmen, die nur über begrenzte personelle Ressourcen im IT-Bereich verfügen.
Best Practices: Solche Methoden verhindern beispielsweise, dass durch Erpresser-Software (Ransomware) Daten und Anwendungen unzugänglich werden. TCS rät daher dazu, alle Backup-Systeme im Unternehmensnetz zentral zu erfassen und zu verwalten. Das gilt auch für Datensicherungslösungen und Daten in einer Cloud. Außerdem sollten solche Lösungen Wiederherstellungszeiten (RPOs, Recovery Point Objectives) von wenigen Minuten bieten, auch dann, wenn große Datenbestände wiederhergestellt werden müssen. Weiterhin sollte eine Instant-Backup-Funktion zur Verfügung stehen, mit der sich Daten von Produktions- und Testumgebungen umgehend speichern lassen. Als Ergänzung dienen IT-Sicherheitsmaßnahmen und eine Cyber-Resiliency-Strategie.
Verwandte Themen