Bewölkt mit Ausfällen

Cloud-Desaster können jeden treffen

von - 23.03.2018
Sturm
Foto: Mihai Simonia / Shutterstock.com
Auch Cloud-Dienste sind fehleranfällig oder durch Naturereignissen bedroht. Kurze oder längere Aussetzer sind die Folge. Doch wer die Dienste redundant bezieht, übersteht die Wolkenkapriolen.
Immer mehr IT-Kapazität wandert in die Cloud. Nach einer kürzlich veröffentlichten Studie von Cisco sollen bis 2021 sogar 94 Prozent aller Workloads in Cloud-Umgebungen verarbeitet werden. Doch auch Clouds sind nicht unfehlbar, wie unser Blick zurück zeigt. Kaum ein Provider oder größerer Online-Dienst, der nicht schon einmal offline war oder Datenverluste beklagen musste. Umso wichtiger ist es, dass aus den Desastern der Vergangenheit die richtigen Lehren gezogen werden.

Auch als Kunde an Redundanz denken

Amazons AWS ist nicht nur der größte Cloud-Betreiber, sondern auch von den großen Providern am längsten im Geschäft. Entsprechend häufig sind die Fälle von kleineren und größeren Ausfällen. Da mittlerweile viele Online- Dienste auf der Infrastruktur von AWS basieren, kann ein Fehler dort große Auswirkungen auf diverse namhafte Services haben. Vergangenes Jahr kam es denn auch bei Amazon zu einem mittleren GAU als an der US-Ostküste der Speicherdienst S3 während drei Stunden nicht zur Verfügung stand. Die Folge war deshalb so verheerend, weil zahlreiche Internet- Dienste ihre Daten dort gespeichert haben. Zu den berühmtesten gehören Docker, GitHub, Signal, Slack, Adobes Cloud-Dienste, Citrix, Expedia, Salesforce und Nest. Sogar die Service-Status-Seite von Amazon selbst war betroffen.
Klar, der Hauptfehler lag bei AWS. Dieser war zudem manuell: Ein Mitarbeiter hatte sich beim routinemäßigen Austausch von Servern bei der Konfiguration vertippt und so wichtige Speichergruppen außer Betrieb gesetzt.
Dass so viele Anwenderfirmen von diesem Vorfall betroffen waren, geht aber auch teilweise auf deren eigenes Konto. Denn sie haben aus Kostengründen darauf verzichtet, den Storage-Dienst redundant zu beziehen und in einer weiteren Region zu spiegeln – was beim weltweiten Anbieter AWS kein Problem wäre. Zu allem Übel kam hinzu, dass die betroffene Region (US-East-1) jeweils standardmäßig gewählt wird, wenn ein neuer Dienst beantragt wird.
Was lernen wir? Auch Cloud-Dienste sollten – zumindest, wenn sie eigene, geschäftskritische Produkte betreiben – ebenfalls redundant bezogen werden. Im genannten Beispiel hätten viele Unternehmen ihre Online-Dienste aufrechterhalten können, wenn sie dies beherzigt hätten. Wie etwa Netflix: Die Video-Streaming-Plattform hat eine Cloud- Architektur aufgebaut, die zwölf AWS-Regionen nutzt. Sollte ein Dienst ausfallen, werden die Ressourcen einfach anderweitig angezapft. Für Netflix lohnen sich wohl die dadurch entstehenden zusätzlichen Cloud-Kosten. Entsprechende Untersuchungen haben gezeigt, dass eine Stunde Ausfall den Provider 200.000 Dollar kostet, ganz abgesehen von den Reputationsschäden, wenn die Zuschauer ihre Lieblingsserie gerade nicht anschauen können.

Krepierter Neustart und Jahrhundertblitze

Auch die Google-Cloud ist vor Ausfällen nicht gefeit. Der jüngste ist gerade erst im Januar 2018 passiert. In gleich zwei Zonen in den USA und in Europa ging beim wichtigen Service "Compute Engine" während neunzig Minuten nichts mehr. Ärgerlich für Google: Es handelte sich um einen recht normalen Fehler, der durch einen Neustart des betroffenen Systems eigentlich in kürzester Zeit behoben worden wäre. Doch der Neustart blieb hängen, eine Situation, mit der routinierte User souverän umzugehen wissen, indem sie das betroffene Gerät – etwa den eigenen PC – einfach aus- und wieder einschalten. Doch die automatisierten Routinen beim Cloud-Riesen kannten diesen einfachen Trick nicht. Noch schlimmer: Sie gaben auch keine Meldung vom misslichen Neustarthänger, was mit ein Grund dafür war, dass die Störung so lange dauerte.
Allzu große Ausmaße hatte der Fehler derweil nicht. Er betraf die Kommunikationsfähigkeit neu gestarteter virtueller Maschinen. Da war der Aussetzer, den die Google-Cloud 2015 hatte, schon gewichtiger, denn hier gingen auch Kundendaten verloren. Diesmal war wohl die dritte bekannte Ursache von Störung neben Mensch und Maschine verantwortlich, nämlich die Natur. In Belgien führte ein kräftiges Gewitter dazu, dass gleich vier Blitze im Rechenzentrum des Suchmaschinenriesen einschlugen. Ein Lottogewinn hat wohl eine größere Wahrscheinlichkeit! Jedenfalls bewirkte das Naturereignis einen kurzen Stromausfall bei ein paar Speichersystemen. Obwohl dank Batterien der Betrieb bald wieder lief, hatten einige Kundendatensätze des Dienstes Compute Engine die Unterbrechung nicht so einfach wegstecken können und mussten von Google in tagelanger Arbeit wiederhergestellt werden. Einige Kunden hatten Pech: Bei einem Millionstel Prozent der Zone "Europe-West1-b" war die komplette Wiederherstellung nicht mehr möglich.
Verwandte Themen