Exzellenz im Service bei Major Incident Management erreichen

Die meisten modernen Unternehmen sind in einem solchen Maße von Technologien abhängig, dass ein erhebliches Risiko besteht, dass technische Probleme zu IT-Stabilitätsproblemen führen und wiederum die funktionalen Fähigkeiten einer Organisation beeinträchtigen.

Eine schnelle und effektive Reaktion sowie ein gut durchdachter Major-Incident-Management-Prozess sind der Schlüssel zur Minderung dieses Risikos.

Major Incidents werden jede Woche in den Nachrichten gemeldet – Sicherheitsverletzungen durch Hacker, Systemausfälle und die Offenlegung von Kundendaten. Dies sind nur diejenigen, die Schlagzeilen machen – unzählige weitere Major Incidents ereignen sich täglich, die sich auf die internen Abläufe, die Rentabilität und den Waren- und Dienstleistungsfluss von Unternehmen auswirken und Führungskräfte von ihrer Kernaufgabe ablenken, die Agenda ihres Unternehmens voranzutreiben.

Die Umfrage von Dimensional Research aus dem Jahr 2016 unter mehr als 400 Fach- und IT-Experten ergab, dass 82 % der Befragten angaben, dass Ausfallzeiten von Geschäftsanwendungen erhebliche Auswirkungen auf den Umsatz ihres Unternehmens hatten. Das Risikoexposure und die Reaktion auf Major Incidents stehen für die meisten Führungskräfte im Vordergrund, da sie beobachten, wie ihre Kollegen Schwierigkeiten haben, Krisensituationen zu bewältigen – in dem Wissen, dass ihre persönliche Karriere und die Zukunft des Unternehmens von ihrer Leistung während einiger Stunden oder Tage abhängen können.

Die erfolgreiche Bewältigung eines Major Incidents kann es einem Unternehmen ermöglichen, schnell zum normalen Betrieb zurückzukehren, den Ruf am Markt zu bewahren und die finanziellen Auswirkungen zu minimieren. Gut gehandhabte Incidents können sogar die Möglichkeit für kontinuierliche Verbesserungen bieten, indem sie tiefere Einblicke gewähren und einem Unternehmen helfen, weiterhin auf seine Ziele zuzusteuern. Wenn ein Incident nicht erfolgreich bewältigt wird, können die dauerhaften Auswirkungen zum Niedergang des Unternehmens führen.

Die Auswirkungen von Major Incidents

Die meisten Unternehmen verfügen über ausreichende Prozesse und Ressourcen, um für einen kurzen Zeitraum (einige Stunden bis einige Tage) im Krisenmodus zu arbeiten. Über diesen Zeitraum hinaus können Personalermüdung, Problemrückstände und der Verlust kritischer Kontrollmechanismen zu schnell sinkender Kundenzufriedenheit, Compliance-Problemen und Abstimmungsschwierigkeiten führen, die eine vollständige Wiederherstellung schwieriger, kostspieliger und zeitaufwändiger machen (sofern eine vollständige Wiederherstellung überhaupt erreicht werden kann).

Über die unmittelbaren operativen Auswirkungen hinaus kann die Bewältigung eines Major Incidents die Kundenwahrnehmung und das langfristige Vertrauen in das Unternehmen und seine Produkte beeinflussen. Angesichts der sich ständig verschärfenden Konkurrenz durch neue Marktteilnehmer und Geschäftsmodelle, schrumpfender Gewinnmargen und steigender Kosten für die Gewinnung neuer Kunden sind Kundenbindung und -zufriedenheit entscheidend für die Sicherstellung der Umsatznachhaltigkeit. Kunden verstehen, dass technische Probleme auftreten – auch sie sind Technologiekonsumenten und -nutzer, die denselben Risiken ausgesetzt sind wie Unternehmen.

Ähnlich wie bei internen Unternehmensabläufen haben die meisten Kunden ein gewisses Maß an Toleranz für kurzfristige Störungen bei ihren Interaktionen mit Unternehmen und bei den Produkten und Dienstleistungen, die sie kaufen und nutzen. Längere Störungen, schlechte Kommunikation und das Versäumnis, den Service rechtzeitig wiederherzustellen, können jedoch die Toleranz und das Wohlwollen der Kunden erheblich untergraben – was möglicherweise zu dauerhaften Schäden an Beziehungen und Chancen für zukünftige Geschäfte führt.

Sowohl die internen operativen Auswirkungen als auch Probleme mit dem Kundenruf werden letztendlich die aktuelle und zukünftige finanzielle Leistung eines Unternehmens untergraben – wobei die Kollateralschäden zunehmen, je länger der Incident andauert. Wiederkehrende Probleme verstärken auch die Auswirkungen von Major Incidents – wenn es einmal passiert, ist es verzeihlich; wenn es erneut passiert, könnten Köpfe rollen. Führungskräfte sind sich dessen bewusst und verbringen zunehmend mehr Zeit damit, ihr Verständnis für die mit der Technologieabhängigkeit in ihrem Geschäft verbundenen Risiken zu entwickeln, Minderungsstrategien zu erarbeiten und ihre Organisationen auf das wahrscheinliche Auftreten von Major Incidents mit Auswirkungen auf das Geschäft vorzubereiten.

…wenn es einmal passiert, ist es verzeihlich; wenn es erneut passiert, könnten Köpfe rollen.

Incident Management vs. Major Incident Management – Warum Unternehmen einen anderen und separaten Ansatz benötigen

Die meisten Unternehmen verfügen über Incident-Management-Prozesse, um tägliche kleinere bis mittlere Störungen zu bewältigen. Diese Prozesse basieren auf bewährten Kundenservicemethoden und/oder auf standardisierten IT-Service-Management-Praktiken (wie sie in ITIL zu finden sind). Incident-Management-Prozesse sind in der Regel effektiv bei der Bewältigung der großen Anzahl relativ geringfügiger Incidents und Serviceanfragen, mit denen ein Unternehmen im Zusammenhang mit seinen IT-Systemen konfrontiert ist. Major Incidents unterscheiden sich jedoch von ihren kleineren, alltäglichen Gegenstücken und erfordern einen anderen und separaten Ansatz.

Auswirkung und Häufigkeit

Major Incidents oder Incidents mit hohem Schweregrad (wie der Name schon sagt) sind solche, die große und erhebliche Auswirkungen auf die Organisation haben. Diese Incidents treten (hoffentlich) nicht sehr häufig auf, aber wenn sie auftreten, können ganze Geschäftsfunktionen betroffen sein. Ein typisches Fortune-500-Unternehmen kann während eines Quartals eine Handvoll Major Incidents erleben, verglichen mit Hunderten (oder in einigen Fällen Tausenden) normaler Incidents pro Tag. Ein normaler Incident betrifft in der Regel nur wenige Benutzer, wobei Reaktions- und Lösungs-SLAs oft verlängert werden, um die Betriebskosten niedrig zu halten. Bei Major Incidents überwiegen die Kosten der Auswirkung bei Weitem die Kosten der Lösung, und die wichtigsten Erfolgsfaktoren sind die Reaktionszeit und die Qualität der Reaktion auf das Problem.

Fähigkeiten und Beteiligte

Service-Desk-Personal mit begrenzter Schulung und technischen Fähigkeiten ist oft dasjenige, das sich mit den täglichen Incident-Management-Funktionen befassen muss – eine Anerkennung der Tatsache, dass die meisten Incidents routinemäßig und sich wiederholend sind und durch grundlegende Diagnosen, binäre Entscheidungs-/Wissensbäume und skriptbasierte Antworten effektiv gelöst werden können. Schwierigere Probleme werden an Eskalationsteams der zweiten und dritten Ebene mit technischem Fachwissen weitergeleitet, aber das Ziel besteht weiterhin darin, die am wenigsten technischen (und kostengünstigsten) verfügbaren Ressourcen zur Lösung des Incidents einzusetzen. Major Incidents erfordern einen anderen Ressourcenansatz. Zeit ist von entscheidender Bedeutung; daher besteht das Ziel darin, die personellen Ressourcen einzusetzen, die den Incident am schnellsten lösen können und somit eine längere Phase der Geschäftsbeeinträchtigung vermeiden. Diese Ressourcen sind in der Regel hochqualifizierte (und hochbezahlte) Fachexperten mit umfassender Erfahrung und tiefgreifenden technischen Fehlerbehebungsfähigkeiten.

Prozesse

Der Trend der letzten Jahre ging dahin, Incident-Management-Prozesse in Richtung Self-Service, Automatisierung und asynchroner Interaktion mit Support-Mitarbeitenden (d. h. E-Mail-Interaktionen mit Mitarbeitenden in globalen Callcentern) zu verlagern. Dieser „Deflection-Ansatz“ zielt darauf ab, den Incident-Management-Prozess auf Skalierbarkeit zu optimieren und menschliche Interaktion zu reduzieren, geht jedoch zulasten längerer Lösungszeiten bei komplexeren Incidents. Major-Incident-Prozesse müssen nahezu genau gegenteilig optimiert werden: Entscheidend sind die Wirksamkeit der Lösung und die Zeit bis zur Behebung; Ressourcenkosten sowie Automatisierungsaspekte treten in den Hintergrund. Die Art und Weise, wie diese Prozesse optimiert werden müssen, macht es sehr schwierig, den einen als Teilmenge des anderen zu betrachten. Neben Prozessverwirrung können Ressourcenkonflikte und unterschiedliche Prioritäten dazu führen, dass beide Prozesse unterdurchschnittlich performen.

Damit ein Major-Incident-Management-Prozess effektiv ist, sollten Organisationen 3 Hauptphasen berücksichtigen, die während kurzer, iterativer Zyklen verwaltet werden müssen, sobald neue Informationen verfügbar werden: Triage, Diagnose und Entscheidungsfindung. Die Triage hilft dabei, die Auswirkungen zu bewerten und alle verfügbaren Daten zu sammeln, um das Problem zu spezifizieren und zu verstehen, welche Ressourcen für die Lösung erforderlich sind (bevor man an einer Telefonkonferenz mit 50 anderen Personen teilnimmt!). Die Diagnose ist entscheidend für die Analyse der Symptome (und gegebenenfalls möglicher Ursachen) sowie für das Schließen von Informationslücken, um die effektivsten Wiederherstellungsmaßnahmen zu bestimmen. Schließlich bezieht sich die Entscheidungsfindung auf das Verstehen und Bewerten der Optionen, während die Risiken ständig sichtbar gehalten werden, und natürlich auf eine effektive Umsetzung.

Kommunikation

Die Kommunikation im Incident Management ist typischerweise eng auf die direkte Interaktion zwischen der Person, die das Problem meldet, und der Person bzw. dem Team ausgerichtet, das an der Behebung arbeitet. Eine Eskalation und damit das Informieren des Managements über den Incident wird als „Fehlschlag“ oder Ausnahme vom ursprünglichen Prozess betrachtet und als unnötiger Kostenfaktor für das Unternehmen gesehen.

Major Incidents unterscheiden sich darin, dass eine aktive und breite Stakeholder-Kommunikation nicht nur hilfreich ist, um die Auswirkungen genau zu bewerten, sondern auch dabei hilft, Erwartungen zu steuern und den Stakeholdern Vertrauen zu vermitteln, dass der Incident unter Kontrolle ist. Während vieler Major Incidents spielen die durch die Stakeholder-Kommunikation geschaffenen Wahrnehmungen eine größere Rolle bei der Bestimmung der Gesamtauswirkung als das technische Problem und die damit verbundenen Symptome. Eine effektive Major-Incident-Kommunikation muss 4 separate Stakeholder-Gruppen ansprechen.

Die betroffene Benutzergemeinschaft, deren Aktivitäten der Incident direkt beeinträchtigt
Indirekt oder potenziell betroffene Stakeholder, deren Vertrauen die Handhabung des Incidents wahrscheinlich beeinflussen wird
Interne Teams und Fachexperten, die möglicherweise an der Incident-Diagnose und -Lösung teilnehmen müssen (dies kann auch Vertreter von Anbietern umfassen)
Support- und IT-Management

Wahrnehmungen steuern

Major Incidents rufen oft emotionale Reaktionen und Gruppendynamiken hervor, die eine Vielzahl von Einflussfaktoren beinhalten können, während normale Incidents in der Regel nur einen oder wenige Benutzer betreffen, deren Wahrnehmungen typischerweise direkt mit dem Incident selbst verbunden sind. Während Major Incidents führen die Auswirkungen nicht nur dazu, dass sich Informationen schnell durch Mundpropaganda verbreiten, sondern es ist auch nicht ungewöhnlich, dass unbeschäftigte Mitarbeiter Spekulationen, Schlussfolgerungen, uninformierte Interpretationen von Ereignissen, Vorurteile und Kommentare darüber, wie der Incident gehandhabt wird, in die Kommunikation einbringen.

Die Kontrolle des Kommunikationsflusses und die Steuerung der Wahrnehmungen sind entscheidend für das Major Incident Management. Wenn die offiziellen Nachrichten des Major-Incident-Management-Teams nicht klar und zeitnah sind und nicht die Informationen liefern, die Stakeholder erwarten, besteht das Risiko, dass Fehlinformationen die offiziellen Nachrichten überlagern, was zu größerer Verwirrung und einer negativen Kundenerfahrung führt.

Einbindung von Führungskräften und Entscheidungsfindung

Zusätzlich zu den allgemeinen technischen und leistungsbezogenen Auswirkungen erstrecken sich Major Incidents und die zu ihrer Lösung erforderlichen Aktivitäten oft über Geschäftsfunktionsgrenzen hinweg, was zu Fragen der Entscheidungsbefugnis führt. Major Incidents erfordern fast immer eine Art von Einbindung der Führungsebene, um bei der Auswirkungsanalyse und Kommunikation zu unterstützen und wichtige Entscheidungen zu treffen, die erforderlich sind, um Hindernisse zu beseitigen, damit die Probleme gelöst werden können. Dies ist ein Umfeld mit hohem Einsatz, in dem das Management die erwarteten Ergebnisse bestimmter Maßnahmen gegen ihre Risiken abwägen muss. Dies erfordert nicht nur eine klare Verantwortlichkeit, sondern auch klare, zugängliche Daten darüber, was über den aktuellen Incident bekannt ist und was nicht. Ein Major-Incident-Management-Prozess sollte funktionsübergreifende Entscheidungsrichtlinien enthalten, um Verzögerungen und Verwirrung zu vermeiden, während ein aktiver Major Incident auftritt.

Die Minderung von Symptomen kann herausfordernd sein; die Behebung von Ursachen kann noch schwieriger sein

Die Herausforderungen im Major-Incident-Management enden nicht mit der Wiederherstellung des Services. Wie bei normalen Incident-Management-Prozessen besteht das primäre Ziel während eines „laufenden“ Major Incidents darin, die Auswirkungen zu begrenzen und Korrekturmaßnahmen zu ergreifen, um den Geschäftsbetrieb wieder in den Normalzustand zu versetzen. Das Verständnis der Grundursache und die Umsetzung von Maßnahmen, um ein erneutes Auftreten des Problems zu verhindern, fallen in den Zuständigkeitsbereich von Problem-Management-Prozessen. Aufgrund der erhöhten geschäftlichen Auswirkungen eines Major Incidents ist es üblich, dass Führungskräfte aktiv nachfassen, um sicherzustellen, dass die Grundursache identifiziert und präventive Maßnahmen zeitnah umgesetzt werden.

In vielen Fällen sind die Erwartungen der Führungskräfte an das Problem-Management unrealistisch, wobei die Herausforderungen zweifach sind.

Über die Symptome des Incidents hinauszugehen und die wahre Grundursache zu identifizieren. Inmitten der Verwirrung bei der Bewältigung des aktiven Major Incidents gehen kritische Diagnoseinformationen oft verloren oder werden zerstört, was die Identifizierung der Grundursache behindert.
Sicherstellung von Unterstützung und Priorisierung für präventive Maßnahmen sowie Umsetzung von Korrekturen, sobald der Geschäftsbetrieb wieder normal läuft. Während das Geschäft aktiv beeinträchtigt ist, herrscht häufig eine „Was-auch-immer-nötig-ist“-Haltung, die schnell verschwindet, sobald der Service wiederhergestellt ist.

Um diese beiden Fallstricke zu vermeiden, ist ein hochintegrierter Major-Incident- und Problem-Management-Prozess erforderlich, in dem kritische „Ursacheninformationen“ aktiv gesichert und dokumentiert werden und die Serviceverbesserung fortgesetzt wird. Nur dann kann über einen längeren Zeitraum echte IT-Stabilität erreicht werden.

Compliance vs. Minderung von Auswirkungen

Der anhaltende Missbrauch von Daten und Technologie hat Regierungen und Aufsichtsbehörden weltweit dazu veranlasst, Unternehmen eine breite Palette von Compliance-Anforderungen aufzuerlegen, um die Sicherheit, Integrität und ordnungsgemäße Verwaltung bestimmter Arten von Technologie und Daten zu gewährleisten. Um die Einhaltung dieser Vorschriften aufrechtzuerhalten und zu überprüfen, haben die meisten Unternehmen eine Reihe von Prozess- und Systemkontrollen implementiert, um sicherzustellen, dass die Handlungen von Einzelpersonen mit den Verpflichtungen des Unternehmens übereinstimmen.

Während eines Major Incidents können diese Kontrollen umständlich werden und eine effektive Diagnose und Lösung der Situation behindern.

Wenn dies geschieht, stehen Unternehmensleitung und Support-Mitarbeitende häufig vor der Wahl, „im Notfall die Scheibe einzuschlagen“ – also die Kontrollmechanismen zu umgehen und regulatorische Nichtkonformität zu riskieren – oder die Kontrollmechanismen beizubehalten und die Auswirkungen des Incidents zu verlängern.

Dies ist das geschäftliche Äquivalent zu der Wahl, die Notärzte treffen müssen, wenn sie vor der Entscheidung stehen, den Patienten zu retten oder ein Glied zu retten.

Abhängig von der Situation und der Art der umgangenen Kontrollen könnte diese Entscheidung regulatorische Konsequenzen haben und die zukünftige Leistung des Unternehmens beeinträchtigen. Dies ist das geschäftliche Äquivalent zu der Wahl, die Notärzte treffen müssen, wenn sie vor der Entscheidung stehen, den Patienten zu retten oder ein Glied zu retten. Der Major-Incident-Management-Prozess eines Unternehmens muss dies berücksichtigen und eine klar definierte Richtlinie und Ausnahmeprozesse bereitstellen, falls eine Umgehung in Betracht gezogen werden muss. In den meisten Fällen akzeptieren Aufsichtsbehörden gut dokumentierte Ausnahmen als ausreichenden Ersatz für normale Kontrollmechanismen, daher ist eine vorausschauende Planung entscheidend.

Die meisten Major Incidents sind vorübergehende Situationen, und ein Unternehmen wird (hoffentlich) wieder zum Normalbetrieb zurückkehren können – einschließlich Prozess- und Systemkontrollen zur Einhaltung von Compliance-Anforderungen. Zusätzlich zu den unmittelbaren Auswirkungen des Umgehens von Compliance-Kontrollen müssen Unternehmen die Herausforderungen und Konsequenzen berücksichtigen, die mit der Wiederherstellung der Kontrollmechanismen verbunden sind, nachdem diese über einen gewissen Zeitraum umgangen wurden. Nach der Behebung des Incidents kann dies eine Reihe von Folgeaktivitäten erfordern, die voraussichtlich kostspielig und zeitaufwendig sind. Es ist wichtig, diese Aspekte bei einer „Break-the-Glass“-Entscheidung zu berücksichtigen.

Warten Sie nicht, bis es zu spät ist!

Unternehmensleiter können nicht kontrollieren, wann Major Incidents auftreten, aber sie können kontrollieren, wie das Unternehmen Major Incidents handhabt und darauf reagiert. Allgemeine Serviceexzellenz, die einen effektiven und gut verstandenen Major-Incident-Management-Prozess umfasst, ist der Schlüssel, um schnell auf den Incident zu reagieren, die unmittelbaren Auswirkungen zu lösen, den Ruf des Unternehmens zu bewahren und das operative und Kundenrisiko zu mindern.

Der Major-Incident-Prozess sollte vom Prozess zur Verwaltung normaler täglicher Incidents getrennt sein und auf Geschwindigkeit und effektive Lösung sowie auf durchdachte und zeitnahe Stakeholder-Kommunikation optimiert werden. Während eines aktiven Incidents sollten sich Support-Personal und Führungskräfte auf das Major Incident Management verlassen, um ihnen zu helfen, die Kontrolle über den End-to-End-Prozess zu übernehmen und ihre Aktivitäten zu steuern durch:

Verstehen des Vorfalls und der Symptome
Abmilderung der Auswirkungen und Management der Risiken
Sicherstellen, dass Entscheidungen sichtbar und datengesteuert sind
Bewertung möglicher Ursachen (falls erforderlich)
Wahrnehmungen und Erwartungen steuern
Rückkehr zur Normalität

Major Incidents gut zu managen, mag für viele IT- und Support-Führungskräfte nicht so überzeugend sein wie beispielsweise neue Veränderungsinitiativen, aber sie schlecht zu managen, kann sicherlich katastrophal sein. Als führendes Unternehmen für Problemlösung arbeitet Kepner-Tregoe seit über 60 Jahren mit Kunden zusammen, um ihre Fähigkeiten zur Bewältigung von Major Incidents in Betrieb und IT zu verbessern und ihnen zu helfen, Serviceexzellenz zu erreichen.

Über Christoph Goldenstern

VP of Strategy & Service Excellence

Christoph ist eine Führungskraft im Beratungsbereich mit über 20 Jahren Erfahrung in der Unterstützung von Organisationen in den Bereichen Strategie, operative und Serviceverbesserung. Als Mitglied des Executive Leadership Teams von KT und globaler VP of Strategy and Service Excellence ist er verantwortlich für die Geschäftsstrategie von KT sowie für dessen Lösungen für IT Service Management und technischen Support.