Gedanken zum Cloud-Ausfall bei Amazon – Teil II
Hallo, zusammen
Ausfälle haben eine unangenehme Eigenschaft, sie richten sich nicht nach denen, die sie zu verhindern suchen. Vielmehr gehorchen sie Murphys Gesetz: „If anything can go wrong it will.“
Wie kann man sich also gegen den Ärger eines Ausfalls schützen?
- Durch Service Level Agreements? Die verhindern zwar den Ausfall nicht, aber man fühlt sich zumindest besser im Fall der Fälle.
- Durch Investition in Höchstverfügbarkeit? Damit reduziert man (hoffentlich) die Wahrscheinlichkeit eines Ausfalls aber auch die Komplexität und die Kosten.
- Durch Resignation vor dem Unausweichlichen? Ja warum denn eigentlich nicht?
Wenn Fehler ohnehin passieren, kann man sich auch schützen indem man ihnen den Schrecken nimmt. Indem man sie zu einem Teil seiner Kultur macht. Diesen Ansatz liebe ich weil er zutiefst pragmatisch ist und den Fokus auf das Ergebnis lenkt statt auf die Anzahl der 9er in einer Statistik.
Genau das hat auch der erfolgreiche amerikanische Filmverleiher Netflix getan und den „Chaos Monkey“ erfunden. Der Chaos Monkey ist ein Prozess, der zufallsgesteuert Teile der Netflix-Software beendet. Dieser Prozess läuft ständig im Produktiv-System!
Warum sollte jemand in einer Produktiv-Umgebung soetwas tun? Weil die Fehler ohne den Chaos Monkey ohnehin passieren (nur eben seltener). Der Chaos Monkey hilft den Entwicklern mit Fehler sinnvoll umzugehen, keine falschen Annahmen zu treffen und immer ein sinnvolles Ergebnis zu liefern, egal was schief geht. Denn keiner denkt mehr „das wird schon nicht schiefgehen“, vielmehr hat der Entwickler die Gewissheit, dass der Chaos Monkey auch seinen Code findet. Gleichzeitig werden alle automatischen Prozesse, die Fehler korrigieren, Prozesse neu starten, etc. fortwährend getestet.
So verbessert der Chaos Monkey sowohl die Software-Qualität als auch die Robustheit des Systems. Und das hat dazu beigetragen, dass Netflix den Amazon-Ausfall unbeschadet überstanden hat, obwohl viele ihrer Server betroffen waren.
Ein bisschen erinnert mich das an das Judo-Prinzip „Siegen durch Nachgeben“. Statt seine Prozesse wie Trutzburgen gegen den Ausfall zu stemmen lässt man den Ausfall über sich ergehen und ist schnell wieder einsatzbereit, und geht während dessen bestmöglich damit um. Denn nicht die Ausfall-Statistik entscheidet am Ende des Tages sondern das Gesamtergebnis!
Weitere Interessante Artikel:
IT bleibt spannend,
Christian Eich