ger

Aufstellung eines erstklassigen IT Incident Management Teams

Ein menschlicher Fehler - ein sehr einfacher - hat British Airways zu schaffen gemacht einen IT-Ausfall am 27. Mai 2017und zwang die Fluggesellschaft, mehr als 400 Flüge zu streichen, so dass 75 000 Passagiere festsaßen. Ein Techniker hatte die Stromversorgung in einem Rechenzentrum unterbrochen, und als sie wieder angeschlossen wurde, verursachte ein Stromstoß große Schäden. Nettokosten für die Fluggesellschaft: satte 80 Millionen Pfund (etwa $102 Millionen).

Das mag nach viel Geld klingen - und das ist es auch -, aber laut Statistaist das nicht ungewöhnlich. Die durchschnittlichen Kosten pro Stunde Ausfallzeit für 86% Unternehmen betragen mehr als $300.000. Und die Stunden summieren sich schnell.

Die Studie zu den Auswirkungen von IT-Ausfällen 2019 ergab, dass ein typisches Unternehmen in den letzten drei Jahren 10 Brownouts (d. h. Störungen der Infrastruktur oder Software) oder Totalausfälle hatte. Diese 10 Vorfälle summieren sich leicht zu Millionen von Dollar.

Es überrascht daher nicht, dass 80% der Unternehmen angaben, dass die Leistung und Verfügbarkeit ihrer IT-Infrastruktur ganz oben auf der Liste ihrer Sorgen steht. Mehr als die Hälfte macht sich Sorgen über einen Ausfall, der so verheerend sein könnte, dass er in die Schlagzeilen gerät. Und wenn ein solches Ereignis eintritt, erwarten 53%, dass Köpfe rollen werden - und dass jemand seinen oder ihren Arbeitsplatz verliert.

Und so schön es auch wäre, die Reaktion auf IT-Probleme einfach zu automatisieren, "Incident Response braucht Menschen, denn erfolgreiche Incident Response erfordert Denken", schrieb Bruce Schneier, in seinem Blog, Schneier on Securityaus dem Jahr 2014. Was Sie brauchen: ein IT-(Groß-)Störungsmanagement-Team mit klar definierten Rollen und Zuständigkeiten, das so geschult ist, dass es diese Zuständigkeiten nach einem krisenerprobten Verfahren erfüllen und gleichzeitig effektiv mit Managern, Kunden und Fachleuten kommunizieren kann.

Die menschliche Seite von Stromausfällen

Genau hier liegt das Problem. Fast die Hälfte (47%) der Befragten einer SAN-Umfrage gaben an, dass Personal- und Fachkräftemangel ihre größte Herausforderung bei der wirksamen Reaktion auf Vorfälle darstellen. In der Tat, die Studie 2019 des Uptime Institute nennt das IT-Personalproblem jetzt eine Krise. Einundsechzig Prozent (61%) der Befragten gaben an, dass sie Schwierigkeiten haben, Mitarbeiter zu halten oder einzustellen - im Vergleich zu 55% im Vorjahr.

Dies ist insofern von Bedeutung, als 60% der Unternehmen der Meinung sind, dass ihr jüngstes bedeutendes Ausfallereignis vermeidbar gewesen wäre. Hätten sie ein besseres Management, bessere Prozesse oder Konfigurationen gehabt, hätte der Ausfall vermieden werden können. Bei Ausfällen, die mehr als $1 Million kosteten, stieg diese Zahl auf 74%.

"Indem das Management zu wenig in Schulungen investiert, Richtlinien nicht durchsetzt, zulässt, dass Verfahren veraltet sind, und die Bedeutung qualifizierter Mitarbeiter unterschätzt, schafft es die Voraussetzungen für eine Kaskade von Umständen, die zu Ausfallzeiten führen", schrieb Kevin Heslin, Chefredakteur des Uptime Institute Journal in einem Artikel vom September 2019 Blogbeitragüber die Umfrage.

Besetzung des IT-Störungsmanagementteams

Ein Vorfall ist ein unerwartetes Ereignis, das den normalen Betrieb eines IT-Dienstes unterbricht. Das IT-Vorfallmanagement ist ein Bereich des IT-Service-Managements (ITSM), bei denen der Dienst so schnell wie möglich wieder normal funktioniert. Viele IT-Störungsmanagement-Teams verwenden etablierte ITSM-Frameworks wie die IT Infrastructure Library (ITIL®) oder COBIT. Andere verwenden eine Kombination aus eigenen bewährten Verfahren, die sich im Laufe der Zeit etabliert haben.

Im Folgenden finden Sie einige der häufigsten Aufgaben im IT-Vorfallmanagement, für die Sie Mitarbeiter einstellen und ausbilden können.

(Major) Störfallmanager

Diese Personen müssen "die Kontrolle" haben. Wenn etwas schief läuft, sorgen sie für sofortige Struktur und Führung und sind letztlich dafür verantwortlich, dass die Dienste wieder normal laufen.

  • fungiert als zentrales Kommando für einen Vorfall
  • Erleichtert den Prozess von Anfang bis Ende
  • Verwaltet die Einbeziehung von Ressourcen
  • Förderung des Problemlösungsprozesses und Beauftragung von KMU mit spezifischen Analysen
  • Erstellung von Berichten über Vorfälle
  • Durchführung eines Post-Mortem bei kritischen Vorfällen
  • Fügt Vorfälle zu einer laufenden Wissensdatenbank mit Vorfällen und Lösungen hinzu
  • Überwacht alle Prozesse, die in den vorgesehenen Arbeitsablauf des Störungsmanagements eingebunden sind
  • stellt sicher, dass Vorfälle so weit gelöst werden, dass die festgelegten SLAs erfüllt werden

Prozessverantwortliche

Diese Person ist für den gesamten Prozess der Reaktion auf Vorfälle verantwortlich und passt ihn bei Bedarf an, um sicherzustellen, dass er mit den Unternehmenszielen übereinstimmt.

  • Festlegung der wichtigsten Leistungsindikatoren (KPIs) zur Bestimmung des normalen Betriebsablaufs
  • Stellt sicher, dass die KPIs den Geschäftszielen entsprechen
  • Entwirft, dokumentiert, überprüft und verbessert Prozesse.
  • lernt kontinuierlich aus Vorfällen, um alle Aspekte des Prozesses so anzupassen, dass die übergeordneten Geschäftsziele erreicht werden

Tier 1 Service-Desk-Personal

Der Tier-1-Servicedesk ist die erste Anlaufstelle, wenn ein Benutzer, Kunde, Manager oder eine andere Person im Unternehmen einen Vorfall meldet. Er besteht aus Mitarbeitern mit grundlegenden, aber umfassenden Kenntnissen über die häufigsten IT-Probleme, wie z. B. das Zurücksetzen von Passwörtern oder Druckerproblemen, sowie über Lösungen für bekannte Probleme.

  • Führt die anfängliche Datenerfassung, Bewertung und Diagnose eines Dienstberichts durch
  • Handelt sofort, um einen ausgefallenen IT-Dienst so schnell wie möglich wiederherzustellen
  • Eskaliert alle Probleme, die nicht sofort gelöst werden können, an den Tier 2 Service Desk
  • Aufzeichnung aller Serviceanfragen und der unternommenen Lösungsschritte
  • Informiert die Person, die den Vorfall gemeldet hat, über den Status des Vorfalls

Unterstützungspersonal der Stufe 2

Auf dieser Ebene arbeiten in der Regel Mitarbeiter, die über fortgeschrittene Kenntnisse bestimmter Systeme verfügen. Anfragen kommen in der Regel, wenn Mitarbeiter der Stufe 1 ein Problem eskalieren, das sie nicht lösen können.

  • als Fachexperte für ein bestimmtes System, eine bestimmte Software oder eine bestimmte Technologie fungieren
  • Diagnose des Problems
  • Durchführung von RCA (Analyse der Grundursache)
  • Aufzeichnung aller Maßnahmen zur Behebung des Vorfalls für die Wissensdatenbank
  • Wenn der Vorfall geklärt ist, bestätigen Sie die Lösung mit der Person, die ihn gemeldet hat.
  • Wenn der Vorfall nicht gelöst werden kann, eskalieren Sie ihn an Stufe 3 und/oder die Technik.
  • Fachliche Kompetenz vermitteln

Schlussfolgerung

Nach Angaben der Studie zu den Auswirkungen von IT-Ausfällen 2019Die beiden wichtigsten verpassten Gelegenheiten zur Vermeidung von Ausfällen waren, dass nicht erkannt wurde, wann die Systeme nahezu ausgelastet waren, und dass nicht erkannt wurde, wann die Leistung kritischer Hardware-, Software- oder Netzwerkkomponenten langsam aber stetig abnahm.

Dabei handelt es sich in erster Linie um menschliche Probleme, die durch die Einführung robuster, aber skalierbarer Prozesse/Praktiken und die Schulung Ihrer IT-Mitarbeiter in deren Anwendung gelöst werden können. Zu den Fragen, die Sie sich bei der Zusammenstellung Ihres Störungsmanagement-Teams stellen sollten, gehören:

  • Bauen Sie Ihre IT-Kapazitäten schneller auf, als Sie Ressourcen für deren Verwaltung einstellen können?
  • Haben Sie Schwierigkeiten, IT-Fachkräfte einzustellen und zu halten?
  • Leiden Ihre IT-Aus- und Weiterbildungsprogramme unter Budgetmangel?

Da die Systeme immer komplexer werden - vor allem, wenn die Cloud ins Spiel kommt -, wird es auch weiterhin zu Ausfällen kommen. Viele können jedoch vermieden und andere viel schneller behoben werden, wenn die richtigen Mitarbeiter an den richtigen Stellen eingesetzt werden und bewährte Verfahren und Prozesse befolgt werden.

Über Kepner-Tregoe

Kepner-Tregoe ist seit mehr als 60 Jahren branchenführend bei Problemlösungs- und Service-Excellence-Prozessen. Die Experten von KT haben Unternehmen durch Tools, Schulungen und Beratung dabei geholfen, ihr Leistungsniveau im Vorfall- und Problemmanagement zu erhöhen - was zu hocheffektiven Service-Management-Teams geführt hat, die bereit sind, auf die kritischsten Probleme Ihres Unternehmens zu reagieren.

Blog Bild 1
Grundlegendes zu schweren Unfällen: Kommunikation und wirksame Maßnahmen. Hilfe! Was sollen wir jetzt tun?
Blog Bild 1
Major Incident Management - Vorbereitet sein, wenn eine Veränderung furchtbar schief läuft

Wir sind Experten in:

Kontaktieren Sie uns

Für Anfragen, Details oder ein Angebot!