Kürzlich erlebten wichtige kritische Betriebszentren, darunter die NYSE und United Airlines, weitreichende und landesweit gemeldete Systemausfälle. Die Verwirrung, Frustration und der finanzielle Verlust dieser Ausfälle wurden noch nicht berechnet, aber ich kann nur vermuten, dass sie astronomisch sein und den Menschen noch lange in Erinnerung bleiben werden.
Laut Pressemitteilungen war der vierstündige Ausfall an der NYSE offenbar auf ein Software-Upgrade zurückzuführen. Obwohl das Upgrade während eines Wartungsfensters außerhalb der Geschäftszeiten geplant war, verursachte es Chaos, als Händler sich am nächsten Morgen um 7 Uhr anmeldeten, um ihre regulären Aktivitäten wieder aufzunehmen, und feststellten, dass sie Schwierigkeiten beim Verbindungsaufbau hatten. Zum Zeitpunkt dieses Schreibens ist unbekannt, wann das Upgrade abgeschlossen war, aber es liegt auf der Hand, dass dies mit etwas zusätzlicher Planung hätte vermieden werden können.
Während es im Nachhinein leicht ist, mangelnde Planung oder das Versäumnis, präventives und kontingentes Denken anzuwenden, als Ursache dieses Problems zu identifizieren, möchte ich stattdessen die Handhabung des Vorfalls nach dessen Auftreten untersuchen.
Die Schwierigkeit beim Incident Management besteht darin, dass es live ist und starke Moderationsfähigkeiten sowie intensive Führung erfordert. Erschwerend kommt hinzu, dass jeder Einblick hat, und es waren sicherlich mehr als 100 Personen in einer Telefonkonferenz, viele baten einfach um eine schnelle Maßnahme, um eine verspätete Eröffnung der Börse zu verhindern. In diesem „Feuergefecht“ ist es für einen Möchtegern-Anführer sehr leicht, die einfachste potenzielle Maßnahme zu ergreifen, die ihm präsentiert wird. Im Fall der NYSE führten die anfänglichen Maßnahmen, die die Dienste wiederherstellen sollten, nur zu einem Zustand, der als sekundärer Ausfall bekannt ist, bei dem sich das Problem durch Versuche, es zu verbessern, nur verschlimmerte.
Der wahre Erfolg in dieser Situation ist, dass die vorherige Planung – die erfolgen sollte, wenn alles reibungslos läuft – in Kraft trat und den Handel noch am selben Tag wieder aufnehmen konnte. Aufträge wurden gemäß Plan korrekt ausgesetzt und storniert, und ein Rechenzentrum in Mahwah, N.J., ging online, um den Handel wieder aufzunehmen. Das Problem wurde noch am selben Tag um 15:10 Uhr behoben.
Wenn wir mit unseren Kunden zusammenarbeiten, die Herausforderungen im Bereich des Incident Managements haben, gehen wir diese Vorfälle mit einer Kombination aus Kompetenzentwicklung, Coaching, Tool-Integration und gezieltem Kulturwandel an. Ein starkes Incident-Management-Team sollte Rollen und Verantwortlichkeiten lange im Voraus definiert haben und, wie Kampfpiloten oder Rettungshubschrauberbesatzungen, eine Reihe von Checklisten und ein umfassendes „Playbook“ verwenden, um Teams zu helfen, ruhig zu bleiben und unter Druck gut zu funktionieren.
Ein Playbook sollte mindestens Folgendes definieren helfen:
1. Methoden zum Verstehen und Validieren der Dienstverschlechterung.
2. Systematische Methoden zur Klärung und zum Verständnis von Symptomen und vom Benutzer gemeldeten Fehlern, damit die richtigen Personen einbezogen werden können.
3. Tools zur Unterstützung des Engagements, einschließlich aktueller Bereitschaftsnummern, Backups und Ansprechpartner von Anbietern.
4. Standardisierte Tools und Orte für Telefonkonferenzinformationen, War Rooms, die Nutzung von Dashboards oder Live-Tools.
5. Methoden zur schnellen und genauen Bestimmung der Priorität, einschließlich des Verständnisses von aktueller Auswirkung, zukünftiger Auswirkung und Zeitrahmen.
6. Eine Entscheidungsfindungsmethodik und Ziele pro Anwendung, die im Voraus entwickelt werden.
7. Ein Risikomanagement-Framework, das verwendet wird, um genaue und nützliche Dokumentationen an das Änderungsmanagement sowie an die Fehlerbehebungsagenten zu übermitteln.
8. Ein Plan, wie validiert wird, dass Systeme wiederhergestellt wurden, und überprüft wird, dass kein sekundärer Ausfall entstanden ist.
9. Übergabeanforderungen zur Aktualisierung der Dokumentation und zur Übertragung des Vorfalls an das Problemmanagement.
10. Framework zur Initiierung und Durchführung von Projekten, um zukünftige Vorfälle zu verhindern.
Bei KT zeigt die Erfahrung, dass die präventive Einrichtung dieses Frameworks und einer Playbook-ähnlichen Struktur zu schnelleren Ergebnissen sowie zu selbstbewussteren und befähigteren Teams führt, insbesondere auf der Junior-Ebene. Es ist erstaunlich, was ein strukturierter Plan bewirken kann, wenn Ihre Organisation unter Beschuss steht und Sie sich auf Ihr Incident-Management-Team verlassen müssen, um unter Druck zu denken.