Our global presence

Kepner-Tregoe is the global leader in helping companies improve the performance of their systems through a combination of consulting services and training programs. KT is uniquely qualified to assess the architecture and design of critical business systems through the integration of three fundamental components: people, process, and technology.

Major Incident Management: Warten Sie nicht mit der Planung Ihrer Reaktion auf einen Major Incident

Die aktuelle Pandemie erinnert uns daran, wie wichtig es ist, vorbereitet zu sein, wenn etwas Großes schief geht. Als die Bedrohung durch Covid-19 offensichtlich wurde, behinderten Unterbrechungen der Lieferketten, fehlende PSA-Bestände und -Ausrüstung sowie widersprüchliche Gesundheitspolitiken die Fähigkeit, mit optimaler Klarheit und Geschwindigkeit zu reagieren.

Die Kosten von IT-Ausfallzeiten können enorm sein

Schwerwiegende oder hochkritische Vorfälle sind solche, die eine große und erhebliche Auswirkung haben. In Unternehmen, die stark auf IT-Systeme angewiesen sind, treten solche Vorfälle zwar nicht häufig auf, doch wenn sie auftreten, ist eine schnelle und geplante Reaktion entscheidend. Die Kosten für IT-Ausfälle können enorm sein: Schätzungen reichen von 427 US-Dollar pro Minute bei kleinen Unternehmen bis zu 9.000 US-Dollar pro Minute bei mittelgroßen und großen Unternehmen. Beim E-Commerce-Riesen Amazon wurden die Kosten für Ausfallzeiten vor einigen Jahren auf über 220.000 US-Dollar pro Minute geschätzt.

Die alltäglichen Prozesse des Incident Managements sind in der Regel effektiv, wenn es darum geht, die große Anzahl von IT-Vorfällen und Serviceanfragen mit relativ geringen Auswirkungen zu bewältigen. Der Trend geht in Richtung Selbstbedienung, Automatisierung und asynchrone Interaktion mit dem Supportpersonal (d.h. E-Mail-Interaktionen mit globalen Call Centern). Service-Desk-Mitarbeiter mit begrenzter Ausbildung und technischen Kenntnissen können die alltäglichen Aufgaben des Incident Managements mit Hilfe von einfachen Diagnosen, binären Entscheidungs-/Wissensbäumen und skriptbasierten Antworten erledigen. Schwierigere Probleme werden an Eskalationsteams der zweiten und dritten Ebene weitergeleitet, die über technisches Fachwissen verfügen, aber das Ziel ist immer noch, die technisch am wenigsten aufwendigen und kostengünstigsten Ressourcen einzusetzen, um den Vorfall zu lösen.

Größere Vorfälle unterscheiden sich von ihren kleineren, alltäglichen Gegenstücken und erfordern einen anderen Ansatz. Ein normaler Vorfall betrifft in der Regel nur ein paar Benutzer. Bei größeren Vorfällen übersteigen die Kosten der Auswirkungen bei weitem die Kosten der Lösung. Die wichtigsten Erfolgsfaktoren sind die Reaktionszeit und die Qualität der Reaktion. Die Zeit ist von entscheidender Bedeutung, so dass das Ziel darin besteht, die Mitarbeiter einzusetzen, die den Vorfall am schnellsten beheben können, um die Auswirkungen auf das Geschäft zu minimieren. Bei diesen Ressourcen handelt es sich in der Regel um hochqualifizierte (und hochbezahlte) Fachexperten mit umfassender Erfahrung und tiefgreifenden technischen Fähigkeiten zur Fehlerbehebung. Ziel ist es, schnell zu reagieren, die unmittelbaren Auswirkungen zu beheben, den Ruf des Unternehmens zu wahren und das Betriebs- und Kundenrisiko zu minimieren.

Der Umgang mit Wahrnehmungen ist entscheidend

Während eines aktiven Vorfalls sollten sich Support-Mitarbeiter und Führungskräfte auf die Ressourcen des Major Incident Managements verlassen, die ihnen helfen, die Kontrolle über den End-to-End-Prozess zu übernehmen und ihre Aktivitäten zu steuern:

  • Verstehen des Vorfalls und der Symptome
  • Abmilderung der Auswirkungen und Management der Risiken
  • Sicherstellen, dass Entscheidungen sichtbar und datengesteuert sind
  • Bewertung möglicher Ursachen (falls erforderlich)
  • Wahrnehmungen und Erwartungen steuern
  • Rückkehr zur Normalität

Ein schlechtes Management von Großereignissen kann katastrophale Folgen haben. Die Kontrolle des Kommunikationsflusses und die Steuerung der Wahrnehmung sind entscheidend für das Management von Großereignissen. Wenn die offiziellen Botschaften des Großstörungsmanagements nicht klar und zeitnah sind, besteht die Gefahr, dass Fehlinformationen die offiziellen Botschaften überlagern, was zu größerer Verwirrung und einer negativen Kundenerfahrung führt.

Zusätzlich zu den allgemeinen technischen und leistungsbezogenen Auswirkungen erstrecken sich die Aktivitäten bei größeren Vorfällen oft über die Grenzen der Geschäftsfunktionen hinaus, was zu Problemen mit der Entscheidungsbefugnis führt. In diesem Umfeld steht viel auf dem Spiel, und das Management muss die erwarteten Ergebnisse bestimmter Maßnahmen gegen die Risiken abwägen. Dies erfordert nicht nur klare, zugängliche Daten darüber, was bekannt ist, sondern auch darüber, was nicht bekannt ist. Ein Prozess für das Management größerer Zwischenfälle sollte funktionsübergreifende Richtlinien für die Entscheidungsfindung enthalten, um Verzögerungen und Verwirrung zu vermeiden, während ein aktiver größerer Zwischenfall auftritt.

Bleiben Sie nicht stehen, sobald der Vorfall bewältigt ist

Die Herausforderungen des Managements größerer Vorfälle enden nicht, wenn der Betrieb wiederhergestellt ist. Wie bei normalen Incident-Management-Prozessen besteht das Hauptziel bei einem “Live”-Vorfall darin, die Auswirkungen zu begrenzen und Korrekturmaßnahmen zu ergreifen, um den normalen Geschäftsbetrieb wiederherzustellen. Jetzt kommt das Problemmanagement ins Spiel und die Ursache muss vollständig verstanden werden. Die Identifizierung der Grundursache und die Implementierung von Maßnahmen, die verhindern, dass das Problem erneut auftritt, kann eine Herausforderung sein. In dem Durcheinander, das bei der Verwaltung des aktiven Störfalls herrscht, gehen oft wichtige Diagnosedaten verloren oder werden zerstört, was die Identifizierung der Grundursache erschwert. Um eine echte IT-Stabilität zu erreichen, ist ein integrierter Prozess für das Management von schwerwiegenden Vorfällen und Problemen erforderlich, um kritische “Ursacheninformationen” zu sichern und zu dokumentieren und sicherzustellen, dass die Serviceverbesserung fortgesetzt wird.

Die Kosten und Gefahren von IT-Ausfallzeiten können enorm sein. Eine Investition in die Reaktion auf größere Vorfälle ist entscheidend für die Aufrechterhaltung der IT-Stabilität und den anhaltenden Geschäftserfolg.

Über Kepner-Tregoe

Software und Vorlagen lösen keine Probleme. Menschen lösen Probleme!

Welche Art von Menschen? Menschen, die neugierig sind, gute Fragen stellen, Entscheidungen auf der Grundlage von Fakten treffen und in der Lage sind, zu führen. Sie bleiben auch unter Druck konzentriert und handeln selbstbewusst, um das zu tun, was getan werden muss. Diese problemlösungsorientierten Führungskräfte finden Sie sowohl bei unseren Kunden als auch hier bei Kepner-Tregoe. Seit über 60 Jahren hat Kepner-Tregoe Tausende von Unternehmen bei der Lösung von Millionen von Problemen unterstützt. Wenn wir für einen Hersteller Millionen einsparen, für eine Börse den IT-Service wiederherstellen und Apollo 13 bei der Rückkehr aus dem Weltraum helfen können, dann können wir auch Ihrem Unternehmen zum Erfolg verhelfen.

kepner-tregoe news

Latest News & Insights