ger

Major Incident Management:
Warten Sie nicht mit der Planung Ihrer Reaktion auf Major Incidents

Die aktuelle Pandemie erinnert daran, wie wichtig es ist, vorbereitet zu sein, wenn etwas Großes schief geht. Als die Bedrohung durch Covid-19 offensichtlich wurde, behinderten Unterbrechungen der Lieferketten, fehlende PSA-Bestände und -Ausrüstung sowie widersprüchliche gesundheitspolitische Maßnahmen die Fähigkeit, mit optimaler Klarheit und Geschwindigkeit zu reagieren.

Die Kosten von IT-Ausfallzeiten können enorm sein

Große oder schwerwiegende Vorfälle sind solche, die große und erhebliche Auswirkungen haben. In Unternehmen, die stark von IT-Systemen abhängig sind, treten diese Vorfälle nicht allzu oft auf, aber wenn sie auftreten, ist eine schnelle, geplante Reaktion entscheidend. Die Kosten von IT-Ausfallzeiten können enorm sein. Die geschätzten Kosten liegen zwischen $427 pro Minute für kleine Unternehmen und $9.000/Minute für mittlere und große Unternehmen. Beim E-Commerce-Giganten Amazon wurden die Kosten für Ausfallzeiten vor ein paar Jahren auf über $220.000/Minute.

Die alltäglichen Incident-Management-Prozesse sind in der Regel effektiv, wenn es darum geht, das große Volumen von IT-Vorfällen und Serviceanfragen mit relativ geringen Auswirkungen zu bewältigen. Der Trend geht in Richtung Selbstbedienung, Automatisierung und asynchrone Zusammenarbeit mit dem Supportpersonal (z. B. E-Mail-Interaktionen mit globalen Call-Centern). Service-Desk-Mitarbeiter mit begrenzter Ausbildung und technischen Kenntnissen können die täglichen Aufgaben des Incident-Managements mit Hilfe von Basisdiagnosen, binären Entscheidungs-/Wissensbäumen und geskripteten Antworten erledigen. Schwierigere Probleme werden an Eskalationsteams der zweiten und dritten Ebene weitergeleitet, die über technisches Fachwissen verfügen, aber das Ziel ist immer noch, die technisch am wenigsten aufwendigen und kostengünstigsten Ressourcen einzusetzen, um den Vorfall zu lösen.

Größere Vorfälle unterscheiden sich von ihren kleineren, alltäglichen Gegenstücken und erfordern einen anderen Ansatz. Ein normaler Vorfall betrifft in der Regel nur einige wenige Benutzer. Bei größeren Vorfällen übersteigen die Kosten der Auswirkungen bei weitem die Kosten für die Behebung. Die wichtigsten Erfolgsfaktoren sind die Reaktionszeit und die Qualität der Reaktion. Die Zeit ist von entscheidender Bedeutung, so dass das Ziel darin besteht, die Mitarbeiter einzusetzen, die den Vorfall am schnellsten beheben können, um die Auswirkungen auf das Unternehmen zu minimieren. Bei diesen Ressourcen handelt es sich in der Regel um hochqualifizierte (und hochbezahlte) Fachexperten mit umfassender Erfahrung und fundierten technischen Kenntnissen zur Fehlerbehebung. Ziel ist es, schnell zu reagieren, die unmittelbaren Auswirkungen zu beheben, den Ruf des Unternehmens zu wahren und das Betriebs- und Kundenrisiko zu mindern.

Wahrnehmungsmanagement ist entscheidend

Während eines aktiven Vorfalls sollten sich Support-Mitarbeiter und Führungskräfte auf Ressourcen für das Management größerer Vorfälle verlassen, die ihnen dabei helfen, die Kontrolle über den End-to-End-Prozess zu übernehmen und ihre Aktivitäten zu steuern:

  • Verstehen des Inicidents und dazugehörender Symptome
  • Abmilderung der Auswirkungen und Risikomanagement
  • Sicherstellen, dass Entscheidungen sichtbar und datengestützt sind
  • Bewertung der möglichen Ursachen (falls erforderlich)
  • Umgang mit Wahrnehmungen und Erwartungen
  • Rückkehr zur Normalität

Ein schlechtes Management von Großereignissen kann katastrophale Folgen haben. Die Kontrolle des Kommunikationsflusses und die Steuerung der Wahrnehmung sind für das Management von Großereignissen entscheidend. Wenn die offiziellen Mitteilungen des Großstörungsmanagements nicht klar und zeitnah sind, besteht die Gefahr, dass Fehlinformationen die offiziellen Mitteilungen überlagern, was zu größerer Verwirrung und einer negativen Kundenerfahrung führt.

Zusätzlich zu den allgemeinen technischen und leistungsbezogenen Auswirkungen erstrecken sich die Aktivitäten bei größeren Vorfällen oft über die Grenzen der Geschäftsfunktionen hinaus, was zu Problemen mit der Entscheidungsbefugnis führt. In diesem Umfeld steht viel auf dem Spiel, und das Management muss die erwarteten Ergebnisse bestimmter Maßnahmen gegen deren Risiken abwägen. Dies erfordert nicht nur klare, zugängliche Daten darüber, was bekannt ist, sondern auch darüber, was nicht bekannt ist. Ein Prozess für das Management von Großereignissen sollte funktionsübergreifende Richtlinien für die Entscheidungsfindung enthalten, um Verzögerungen und Verwirrung zu vermeiden, während ein aktives Großereignis eintritt.

Nicht aufhören, wenn der Vorfall bewältigt ist

Die Herausforderungen des Störungsmanagements enden nicht, wenn der Betrieb wiederhergestellt ist. Wie bei normalen Incident-Management-Prozessen besteht das Hauptziel während eines "Live"-Großvorfalls darin, die Auswirkungen zu mindern und Korrekturmaßnahmen zu ergreifen, um den normalen Geschäftsbetrieb wiederherzustellen. Jetzt kommt das Problemmanagement ins Spiel, und die Ursache muss vollständig verstanden werden. Die Identifizierung der Grundursache und die Implementierung von Maßnahmen, die verhindern, dass das Problem erneut auftritt, kann eine Herausforderung sein. In dem Durcheinander, das bei der Verwaltung des aktiven Störfalls herrscht, gehen oft wichtige Diagnoseinformationen verloren oder werden zerstört, was die Identifizierung der Grundursache erschwert. Um eine echte IT-Stabilität zu erreichen, ist ein integrierter Prozess für das Management größerer Vorfälle und Probleme erforderlich, um kritische "Ursacheninformationen" zu sichern und zu dokumentieren und sicherzustellen, dass die Serviceverbesserung fortgesetzt wird.

Die Kosten und Gefahren von IT-Ausfallzeiten können enorm sein. Eine Investition in die Reaktion auf schwerwiegende Vorfälle ist entscheidend für die Aufrechterhaltung der IT-Stabilität und den anhaltenden Geschäftserfolg.

Über Kepner-Tregoe

Software und Vorlagen lösen keine Probleme. Menschen lösen Probleme!

Welche Art von Menschen? Menschen, die neugierig sind, gute Fragen stellen, Entscheidungen auf der Grundlage von Fakten treffen und in der Lage sind, zu führen. Sie bleiben auch unter Druck konzentriert und handeln selbstbewusst, um das zu tun, was getan werden muss. Diese problemlösungsorientierten Führungskräfte finden Sie sowohl bei unseren Kunden als auch hier bei Kepner-Tregoe. Seit über 60 Jahren hat Kepner-Tregoe Tausende von Unternehmen bei der Lösung von Millionen von Problemen unterstützt. Wenn wir für einen Hersteller Millionen einsparen, für eine Börse den IT-Service wiederherstellen und Apollo 13 bei der Rückkehr aus dem Weltraum helfen können, dann können wir auch Ihrem Unternehmen zum Erfolg verhelfen.

Blog Bild 1
Major Incident Management - Vorbereitet sein, wenn eine Veränderung furchtbar schief läuft
Blog Bild 1
Planung ist der Schlüssel zu einem Systemausfall in NYSE: 10 wichtige Komponenten für Ihr Incident Management Playbook
Blog Bild 1
Verwendung des KT-Prozesses für das Incident Management
Blog Bild 1
Wie man ein Superstar im Störungs- und Problemmanagement wird

Wir sind Experten in:

Kontaktieren Sie uns

Für Anfragen, Details oder ein Angebot!