ger

Service Excellence beim Major Incident Management

Die meisten modernen Unternehmen sind in einem solchen Ausmaß von Technologien abhängig, dass ein erhebliches Risiko besteht, dass technische Probleme zu IT-Stabilitätsproblemen führen, die wiederum die Funktionsfähigkeit einer Organisation in Frage stellen.

Die Gewährleistung einer schnellen und wirksamen Reaktion und ein gut durchdachtes Verfahren zur Bewältigung von Großstörungen sind der Schlüssel zur Minderung dieses Risikos.

Jede Woche wird in den Nachrichten über Großstörungen berichtet – Security-Breaches durch Hacker, Systemausfälle und die Preisgabe von Kundendaten. Das sind nur die, die Schlagzeilen machen – täglich ereignen sich zahllose weitere größere Vorfälle, die sich auf die internen Abläufe, die Rentabilität und den Waren- und Dienstleistungsfluss von Unternehmen auswirken und die Unternehmensleiter von ihrer eigentlichen Aufgabe ablenken, die Agenda ihres Unternehmens voranzutreiben.

Die 2016 von Dimensional Research durchgeführte Umfrage unter mehr als 400 Geschäfts- und IT-Fachleuten ergab, dass 82% der Befragten angaben, dass Ausfallzeiten von Geschäftsanwendungen einen erheblichen Einfluss auf den Umsatz ihres Unternehmens haben. Das Risiko und die Reaktion auf Großstörungen stehen für die meisten Führungskräfte ganz oben auf der Agenda, da sie sehen, wie ihre Kollegen mit Krisensituationen zu kämpfen haben - wohl wissend, dass ihre persönliche Karriere und die Zukunft ihres Unternehmens von ihrer Leistung während einiger Stunden oder Tage abhängen kann.

Die erfolgreiche Bewältigung einer Großstörung kann es einem Unternehmen ermöglichen, schnell zum normalen Betrieb zurückzukehren, den Ruf auf dem Markt zu wahren und die finanziellen Auswirkungen zu minimieren. Gut gemanagte Incidents können sogar die Möglichkeit zur kontinuierlichen Verbesserung bieten, indem sie tiefere Einblicke gewähren und einem Unternehmen helfen, seine Ziele schneller zu erreichen. Wird ein Incident nicht erfolgreich bewältigt, können die dauerhaften Auswirkungen im schlimmsten Fall sogar zum Aus des Unternehmens führen.

Die Auswirkungen von Großstörungen

Die meisten Unternehmen verfügen über ausreichende Prozesse und Ressourcen, um in einem Krisenmodus für einen kurzen Zeitraum (einige Stunden bis einige Tage) zu arbeiten. Nach diesem Zeitraum können Ermüdung des Personals, Rückstände bei der Bearbeitung von Problemen und der Verlust kritischer Kontrollmechanismen dazu führen, dass die Kundenzufriedenheit schnell abnimmt, Probleme mit der Einhaltung von Vorschriften auftreten und die Abstimmung schwierig wird, was eine vollständige Wiederherstellung erschwert, kostspielig und zeitaufwändig macht (falls eine vollständige Wiederherstellung überhaupt möglich ist).

Abgesehen von den unmittelbaren betrieblichen Auswirkungen kann die Bewältigung einer Großstörung die Wahrnehmung der Kunden und das langfristige Vertrauen in das Unternehmen und seine Produkte beeinträchtigen. Angesichts des sich ständig verschärfenden Wettbewerbs durch aufstrebende und neue Geschäftsmodelle, sinkender Gewinnspannen und steigender Kosten für die Gewinnung neuer Kunden sind Kundenbindung und -zufriedenheit von entscheidender Bedeutung. Kunden wissen, dass Technologieprobleme auftreten – auch sie sind Technologiekonsumenten und –nutzer, die den gleichen Risiken ausgesetzt sind wie Unternehmen.

Ähnlich wie bei unternehmensinternen Abläufen haben die meisten Kunden eine gewisse Toleranz für kurzfristige Störungen bei der Interaktion mit Unternehmen und bei den Produkten und Dienstleistungen, die sie kaufen und nutzen. Längere Unterbrechungen, schlechte Kommunikation und das Versäumnis, den Service rechtzeitig wiederherzustellen, können jedoch den guten Willen der Kunden erheblich beeinträchtigen - und so möglicherweise dauerhaften Schaden an den Beziehungen und künftigen Geschäftsmöglichkeiten verursachen.

Sowohl die internen betrieblichen Auswirkungen als auch die Reputationsprobleme bei den Kunden werden schließlich die aktuelle und zukünftige finanzielle Leistung eines Unternehmens untergraben - wobei der Kollateralschaden mit der Dauer des Vorfalls zunimmt. Wiederkehrende Probleme verschlimmern zudem die Auswirkungen von Großstörungen - wenn es einmal passiert, ist es verzeihlich; wenn es wieder passiert, könnten Köpfe rollen. Führungskräfte sind sich dessen bewusst und verbringen immer mehr Zeit damit, die Risiken der Technologieabhängigkeit in ihrem Unternehmen zu verstehen, Strategien zur Risikominderung zu entwickeln und ihre Organisationen auf das wahrscheinliche Auftreten größerer geschäftsrelevanter Störungen vorzubereiten.

...wenn es einmal passiert, dann ist es verzeihlich; wenn es wieder passiert, dann könnten Köpfe rollen.

Incident Management vs. Major Incident Management – Warum Unternehmen einen unterschiedlichen und separaten Ansatz benötigen

Die meisten Unternehmen verfügen über Incident-Management-Prozesse zur Bewältigung alltäglicher kleiner bis mittlerer Störungen. Diese Prozesse basieren auf bewährten Kundenservice-Methoden und/oder auf Standardverfahren des IT-Service-Managements (wie z. B. ITIL). Incident-Management-Prozesse sind in der Regel effektiv bei der Bewältigung einer großen Anzahl von Incidents und Serviceanfragen mit relativ geringer Auswirkung, die ein Unternehmen im Zusammenhang mit seinen IT-Systemen hat. Major Incidents unterscheiden sich jedoch von ihren kleineren, alltäglichen Gegenstücken und erfordern einen anderen und separaten Ansatz.

Auswirkungen und Häufigkeit

Major Incidents oder Großstörungen sind (wie der Name schon sagt) solche, die große und erhebliche Auswirkungen auf das Unternehmen haben. Großstörungen treten (hoffentlich) nicht sehr oft auf, aber wenn sie auftreten, können ganze Geschäftsbereiche betroffen sein. Ein typisches Fortune-500-Unternehmen hat im Laufe eines Quartals vielleicht eine Handvoll an Großstörungen zu verzeichnen, im Vergleich zu Hunderten (oder in manchen Fällen Tausenden) von normalen Incidents pro Tag. Ein normaler Incident betrifft in der Regel nur einige wenige Nutzer. Hier sind Reaktions- und Lösungszeiten oft lang, um die Betriebskosten niedrig zu halten. Bei Großstörungen hingegen überwiegen die Kosten der Auswirkungen bei weitem die Kosten der Lösung, und die wichtigsten Erfolgsfaktoren sind die Reaktionszeit und die Qualität der Reaktion.

Fertigkeiten und Beteiligte

Service-Desk-Mitarbeiter mit begrenzter Ausbildung und technischen Grundkenntnissen sind oft diejenigen, die sich um den Großteil der Incidents kümmern müssen - eine Anerkennung der Tatsache, dass die meisten Incidents routinemäßiger und sich wiederholender Natur sind und durch grundlegende Diagnosen, binäre Entscheidungsbäume und skriptgesteuerte Antworten effektiv gelöst werden können. Schwierigere Sachverhalte werden an Eskalationsteams der zweiten und dritten Ebene weitergeleitet. Diese verfügen in der Regel über technisches Fachwissen, aber das Ziel ist immer noch, die am wenigsten technischen (und kostengünstigsten) verfügbaren Ressourcen zur Lösung des Sachverhalts einzusetzen. Großstörungen erfordern einen anderen Ansatz. Das Ziel sollte hier sein, direkt die Mitarbeiter einzusetzen, die die Störung am schnellsten beheben und damit eine längere Beeinträchtigung des Geschäftsbetriebs vermeiden können. Bei diesen Ressourcen handelt es sich in der Regel um hochqualifizierte (und hochbezahlte) Fachexperten mit umfassender Erfahrung und fundierten technischen Kenntnissen zur Fehlerbehebung.

Prozesse

In den letzten Jahren ging der Trend bei den Incident-Management-Prozessen in Richtung Self-Service, Automatisierung und asynchrone Interaktion mit den Support-Mitarbeitern (d. h. E-Mail-Interaktionen mit Mitarbeitern in globalen Call-Centern). Dieser Ansatz zielt darauf ab, den Incident-Management-Prozess im Hinblick auf Skalierbarkeit zu optimieren und die menschliche Interaktion zu reduzieren, was jedoch auf Kosten der Zeit geht, die für die Lösung komplexerer Incidents benötigt wird. Die Prozesse für Major Incidents müssen fast genau umgekehrt optimiert werden, wobei die Effektivität der Lösung und die Zeit bis zur Lösung am wichtigsten sind und die Ressourcenkosten und die Automatisierung in den Hintergrund treten. Die Art und Weise, wie diese Prozesse optimiert werden müssen, macht es sehr schwierig, den einen als Teilmenge des anderen zu betrachten. Neben der Vermischung der Prozesse können Ressourcenkonflikte und unterschiedliche Prioritäten dazu führen, dass beide Prozesse unzureichend funktionieren.

Damit ein umfassender Incident-Management-Prozess effektiv ist, sollten Organisationen drei Hauptphasen berücksichtigen, die in kurzen, iterativen Zyklen bewältigt werden müssen, sobald neue Informationen verfügbar sind: Triage, Diagnose und Entscheidungsfindung. Die Triage hilft dabei, die Auswirkungen abzuschätzen und alle verfügbaren Daten zu sammeln, um das Problem zu spezifizieren und zu verstehen, welche Ressourcen für die Lösung erforderlich sind (bevor man sich mit 50 anderen Personen auf einen Brückenanruf einlässt!). Die Diagnose ist von entscheidender Bedeutung für die Analyse der Symptome (und ggf. der möglichen Ursachen) sowie für das Füllen der Informationslücken, um die wirksamsten Wiederherstellungsmaßnahmen zu bestimmen. Schließlich geht es bei der Entscheidungsfindung darum, die Optionen zu verstehen und zu bewerten und dabei die Risiken stets im Blick zu behalten und natürlich effektiv auszuführen.

Kommunikation

Die Kommunikation im Rahmen des Incident-Managements ist in der Regel eng auf die direkte Interaktion zwischen dem Benutzer, der das Problem meldet, und der Person oder dem Team, das an der Lösung des Problems arbeitet, ausgerichtet. Eine Eskalation und damit die Benachrichtigung des Managements über den Vorfall wird als „Fehler“ oder Ausnahme vom ursprünglichen Prozess angesehen und verursacht dem Unternehmen unnötige Kosten.

Großstörungen sind insofern anders, als eine aktive und umfassende Kommunikation mit den Interessengruppen nicht nur für eine genaue Bewertung der Auswirkungen hilfreich ist, sondern auch dazu beiträgt, die Erwartungen zu steuern und den Interessengruppen das Vertrauen zu vermitteln, dass der Vorfall unter Kontrolle ist. Bei vielen Großstörungen spielt die durch die Kommunikation mit den Beteiligten erzeugte Wahrnehmung eine größere Rolle bei der Bestimmung der Gesamtauswirkungen als das technische Problem und die damit verbundenen Symptome. Eine wirksame Kommunikation bei Großstörungen muss sich an 4 verschiedene Stakeholder-Gruppen richten.

  1. Die betroffene Nutzergemeinschaft, deren Aktivitäten von dem Vorfall direkt betroffen sind
  2. Indirekt oder potenziell betroffene Interessengruppen, deren Vertrauen die Bewältigung des Incidents wahrscheinlich beeinflusst
  3. Interne Teams und KMUs, die an der Diagnose und Lösung von Vorfällen beteiligt werden müssen (dies kann auch Vendor umfassen)
  4. Support und IT-Management

Wahrnehmungen managen

Großstörungen rufen oft emotionale Reaktionen und eine Massendynamik hervor, die eine Vielzahl von Einflussfaktoren umfassen kann, während bei normalen Incidents in der Regel nur ein oder wenige Nutzer beteiligt sind, deren Wahrnehmungen direkt mit dem Ereignis selbst verbunden sind. Bei Großstörungen führen die Auswirkungen nicht nur dazu, dass sich Informationen schnell durch Mundpropaganda verbreiten, sondern es ist auch nicht ungewöhnlich, dass untätige Mitarbeiter Spekulationen, Schlussfolgerungen und uninformierte Interpretationen von Ereignissen über die Bewältigung der Großstörung in den Kommunikationsmix einbringen.

Die Kontrolle des Kommunikationsflusses und die Steuerung der Wahrnehmung sind für das Management von Großstörungen entscheidend. Wenn die offiziellen Mitteilungen vom Major-Incident-Team nicht klar und rechtzeitig sind und die von den Beteiligten erwarteten Informationen enthalten, besteht die Gefahr, dass Fehlinformationen die offiziellen Mitteilungen überlagern, was zu größerer Verwirrung und einer negativen Kundenerfahrung führt.

Einbindung der Exekutive und Entscheidungsfindung

Zusätzlich zu den allgemeinen technischen und leistungsbezogenen Auswirkungen erstrecken sich Großstörungen und die zu ihrer Behebung erforderlichen Aktivitäten oft über die Grenzen der Geschäftsbereiche hinaus, so dass sich Fragen der Entscheidungsbefugnis ergeben. Großstörungen erfordern fast immer die Beteiligung einer Führungskraft, die bei der Analyse der Auswirkungen und der Kommunikation hilft und wichtige Entscheidungen trifft, um Hindernisse aus dem Weg zu räumen. In diesem Umfeld steht viel auf dem Spiel, und die Unternehmensleitung muss die erwarteten Ergebnisse bestimmter Maßnahmen gegen die Risiken abwägen. Dies erfordert nicht nur klare Zuständigkeiten, sondern auch klare, zugängliche Daten darüber, was über den aktuellen Vorfall bekannt ist und was nicht. Ein Prozess für das Management von Großstörungen sollte funktionsübergreifende Richtlinien für die Entscheidungsfindung enthalten, um Verzögerungen und Verwirrungen zu vermeiden.

Die Linderung von Symptomen kann eine Herausforderung sein; die Bekämpfung der Ursachen noch schwieriger

Die Herausforderungen vom Major-Incident-Management enden nicht, wenn der Betrieb wiederhergestellt ist. Wie bei normalen Incident-Management-Prozessen besteht das Hauptziel während einer Großstörung darin, die Auswirkungen zu mindern und Korrekturmaßnahmen zu ergreifen, um den normalen Geschäftsbetrieb wiederherzustellen. Das Verstehen der Grundursache und die Implementierung von Maßnahmen, die ein erneutes Auftreten des Problems verhindern sollen, fallen in den Aufgabenbereich vom Problem Management. Da eine Großstörung eine größere Auswirkung auf das Geschäft hat, ist es üblich, dass Führungskräfte aktiv nachfassen, um sicherzustellen, dass die Grundursache identifiziert und Präventivmaßnahmen zeitnah umgesetzt werden.

In vielen Fällen sind die Erwartungen der Führungskräfte an das Problemmanagement unrealistisch, was zu einer zweifachen Herausforderung führt.

  1. Über die Symptome der Störung hinausgehen und die wahre Ursache ermitteln. In dem Durcheinander, das bei der Bewältigung aktiver Großstörungen herrscht, gehen oft wichtige diagnostische Informationen verloren, was die Ermittlung der eigentlichen Ursache erschwert.
  2. Sicherstellung der Unterstützung und Priorisierung von Präventivmaßnahmen und Implementierung von Korrekturen, sobald der Geschäftsbetrieb wieder normal läuft. Während das Geschäft aktiv beeinträchtigt ist, herrscht oft eine „Was auch immer getan werden muss“-Einstellung, die schnell verschwindet, sobald der Betrieb wiederhergestellt ist.

Um diese beiden Fallstricke zu vermeiden, ist ein hoch integrierter, umfassender Incident- und Problem-Management-Prozess erforderlich, bei dem kritische „Ursacheninformationen“ aktiv gesichert und dokumentiert werden und der Service kontinuierlich verbessert wird. Nur so kann echte IT-Stabilität über einen längeren Zeitraum hinweg erreicht werden.

Compliance vs. Auswirkungen minimieren

Der anhaltende Missbrauch von Daten und Technologien hat Regierungen und Aufsichtsbehörden auf der ganzen Welt dazu veranlasst, Unternehmen ein breites Spektrum an Compliance-Anforderungen aufzuerlegen, um die Sicherheit, Privatsphäre und ordnungsgemäße Verwaltung bestimmter Arten von Technologien und Daten zu gewährleisten. Um die Einhaltung dieser Vorschriften zu gewährleisten und zu überprüfen, haben die meisten Unternehmen eine Reihe von Prozess- und Systemkontrollen eingeführt, um sicherzustellen, dass die Handlungen der Mitarbeiter mit den Verpflichtungen des Unternehmens übereinstimmen.

Bei einer Großstörung können diese Kontrollen schwerfällig werden und eine wirksame Diagnose und Lösung der Situation verhindern.

Wenn dies geschieht, stehen Unternehmensleiter und Support-Mitarbeiter oft vor der Wahl „im Notfall das Glas zu zerbrechen“ – die Kontrollmechanismen zu umgehen und die Nichteinhaltung von Vorschriften zu riskieren oder die Kontrollmechanismen beizubehalten und die Auswirkungen des Vorfalls zu verlängern.

Dies ist das geschäftliche Äquivalent zu der Entscheidung, die Ärzte in der Notaufnahme treffen müssen, wenn es darum geht, einen Patienten zu retten oder ein Körperteil zu retten.

Je nach Situation und Art der umgangenen Kontrollen kann diese Entscheidung rechtliche Konsequenzen haben und sich auf das Unternehmen auswirken. Dies ist das geschäftliche Äquivalent zu der Entscheidung, die Ärzte in der Notaufnahme treffen müssen, wenn es darum geht, einen Patienten zu retten oder ein Körperteil zu retten. Der Prozess zur Bewältigung von Großstörungen in einem Unternehmen muss dies berücksichtigen und klar definierte Richtlinien und Ausnahmeverfahren vorsehen. In den meisten Fällen akzeptieren die Aufsichtsbehörden gut dokumentierte Ausnahmen als ausreichenden Ersatz für die normalen Kontrollmechanismen, daher ist eine vorausschauende Planung entscheidend.

Die meisten Großstörungen sind vorübergehende Situationen, und ein Unternehmen wird (hoffentlich) in der Lage sein, zum normalen Betrieb zurückzukehren, zu dem auch Prozess- und Systemkontrollen zur Einhaltung der Vorschriften gehören. Neben den unmittelbaren Auswirkungen der Umgehung von Compliance-Kontrollen müssen Unternehmen auch die Herausforderungen und Auswirkungen der Wiederherstellung der Kontrollmechanismen berücksichtigen, nachdem diese für einige Zeit umgangen wurden. Nachdem der Vorfall behoben ist, kann dies eine Reihe von Folgeaktivitäten erfordern, die wahrscheinlich kostspielig und zeitaufwändig sind. Es ist wichtig, diese zu berücksichtigen, wenn man eine „das Glas zerbrechen“-Entscheidung trifft.

Warten Sie nicht, bis es zu spät ist!

Die Unternehmensleitung kann nicht kontrollieren, wann sich Großstörungen ereignen, aber sie kann kontrollieren, wie das Unternehmen mit Großstörungen umgeht und wie es darauf reagiert. Ein exzellenter Gesamtservice, zu dem auch ein wirksamer und gut verstandener Prozess für das Management von Großstörungen gehört, ist der Schlüssel zu einer schnellen Reaktion, zur Behebung der unmittelbaren Auswirkungen, zur Wahrung des Rufs des Unternehmens und zur Minderung des Betriebs- und Kundenrisikos.

Der Prozess für Großstörungen sollte vom Prozess für das Management normaler/täglicher Incidents getrennt sein und auf eine schnelle und effektive Lösung sowie eine durchdachte und rechtzeitige Kommunikation mit den Beteiligten optimiert werden. Während eines aktiven Incidents sollten sich Support-Mitarbeiter und Führungskräfte auf das Management von Großstörungen verlassen, um die Kontrolle über den End-to-End-Prozess zu übernehmen und ihre Aktivitäten zu steuern:

  • Verstehen des Incidents und dazugehörender Symptome
  • Verringerung der Auswirkungen und Risikomanagement
  • Sicherstellen, dass Entscheidungen sichtbar und datengestützt sind
  • Bewertung der möglichen Ursachen (falls erforderlich)
  • Umgang mit Wahrnehmungen und Erwartungen
  • Rückkehr zur Normalität

Ein gutes Management von Großstörungen mag für viele IT- und Support-Führungskräfte nicht so attraktiv sein wie z. B. neue Änderungsinitiativen, aber ein schlechtes Management kann durchaus katastrophale Folgen haben. Als branchenführendes Problemlösungsunternehmen arbeitet Kepner-Tregoe seit mehr als 60 Jahren mit Kunden zusammen, um deren Fähigkeiten zur Bewältigung von Großstörungen im Betrieb und in der IT zu verbessern und sie bei der Erreichung von Service Excellence zu unterstützen.

Autor

Christoph Goldenstern

Vice President of Strategy & Service Excellence

Christoph ist ein führender Berater mit mehr als 20 Jahren Erfahrung in der Unterstützung von Unternehmen in den Bereichen Strategie, Betriebs- und Serviceverbesserung. Als Mitglied des KT-Führungsteams und Global VP of Strategy and Service Excellence ist er für die Geschäftsstrategie von KT sowie für die Lösungen für IT-Service-Management und technischen Support verantwortlich.

Wir arbeiten hart daran, die wirklich hilfreichen und einzigartigen Inhalte zu erstellen. Wir freuen uns über Ihr Interesse!

Melden Sie sich an oder loggen Sie sich in Ihr Konto ein, um den ganzen Artikel zu lesen.

Verwandte Blogs

Prozesswissen und Inhaltswissen. Was ist wichtiger?

'Shift Left'? Nein, 'Shift Down' für Services Support Success

Wir sind Experten in:

Kontaktieren Sie uns

für Anfragen, Details oder ein Angebot!