Ein menschlicher Fehler – ein sehr grundlegender – führte dazu, dass British Airways am 27. Mai 2017 einen IT-Ausfall erlitt. Das zwang die Airline, mehr als 400 Flüge zu streichen, und ließ 75.000 Passagiere stranden. Ein Techniker hatte in einem Rechenzentrum eine Stromversorgung getrennt, und als sie wieder angeschlossen wurde, verursachte eine Überspannung massive Schäden. Nettokosten für die Airline: satte 80 Millionen Pfund (rund 102 Millionen US-Dollar).
Das klingt nach viel Geld – und das ist es auch –, aber laut Statista ist das nicht ungewöhnlich. Die durchschnittlichen Kosten pro Stunde Ausfallzeit liegen bei 86 % der Unternehmen bei mehr als 300.000 US-Dollar. Und die Stunden summieren sich schnell.
Die 2019 IT Outage Impact Study ergab, dass die typische Organisation in den vergangenen drei Jahren 10 Brownouts (bei denen Infrastruktur oder Software nur eingeschränkt leistungsfähig ist) oder vollständige Ausfälle erlebt hat. Diese 10 Vorfälle summieren sich leicht auf Millionen von US-Dollar.
Es überrascht daher nicht, dass 80 % der Unternehmen berichten, dass die Performance und Verfügbarkeit ihrer IT-Infrastruktur ganz oben auf ihrer Sorgenliste stehen. Mehr als die Hälfte befürchtet einen so verheerenden Ausfall, dass er es in die Mainstream-Nachrichten schafft. Und falls ein solches Ereignis eintritt, erwarten 53 %, dass Köpfe rollen – und jemand seinen oder ihren Job verliert.
Und so sehr es auch wünschenswert wäre, Reaktionen auf IT-Probleme einfach zu automatisieren: „Incident Response braucht Menschen, denn erfolgreiche Incident Response erfordert Denken“, schrieb Bruce Schneier in seinem Blog „Schneier on Security“ bereits 2014. Was Sie brauchen: ein IT-(Major-)Incident-Management-Team mit klar definierten Rollen und Verantwortlichkeiten, das darauf geschult ist, diese Verantwortlichkeiten zu erfüllen, indem es einem krisenerprobten Prozess folgt und dabei effektiv mit Führungskräften, Kunden und Fachexperten kommuniziert.
Die menschliche Seite von Ausfällen
Hier liegt das Problem: Personal- und Kompetenzengpässe sind eine erhebliche Herausforderung für eine wirksame Incident Response. Tatsächlich bezeichnet die Studie des Uptime Institute aus dem Jahr 2019 das IT-Personalproblem inzwischen als Krise. 61 % der Befragten gaben an, Schwierigkeiten zu haben, Mitarbeitende zu halten oder zu rekrutieren – gegenüber 55 % im Vorjahr.
Das ist wichtig, weil 60 % der Organisationen glauben, dass ihr jüngstes bedeutendes Downtime-Ereignis vermeidbar gewesen wäre. Mit besserem Management, besseren Prozessen oder Konfigurationen hätte der Ausfall verhindert werden können, sagen sie. Bei Ausfällen mit Kosten von mehr als 1 Million US-Dollar sprang dieser Wert auf 74 %.
„Durch zu geringe Investitionen in Schulungen, das Versäumnis, Richtlinien durchzusetzen, das Zulassen veralteter Verfahren und das Unterschätzen der Bedeutung qualifizierter Mitarbeitender schafft das Management die Voraussetzungen für eine Kaskade von Umständen, die zu Downtime führt“, schrieb Kevin Heslin, Chefredakteur des Uptime Institute Journal, in einem Blogbeitrag vom September 2019 über die Umfrage.
Das IT-Incident-Management-Team besetzen
Ein Incident ist jedes unerwartete Ereignis, das den normalen Betrieb eines IT-Services stört. IT-Incident-Management ist ein Bereich des IT-Service-Managements (ITSM), in dem der Service so schnell wie möglich wieder in den Normalbetrieb zurückgeführt wird. Viele IT-Incident-Management-Teams nutzen etablierte ITSM-Frameworks wie die IT Infrastructure Library (ITIL®) oder COBIT. Andere verwenden eine Kombination aus proprietären Best Practices, die sich im Laufe der Zeit etabliert haben.
Hier sind einige der häufigsten Rollen im IT-Incident-Management, für die Sie einstellen und schulen sollten.
(Major-)Incident-Manager
Diese Personen müssen „die Kontrolle haben“. Wenn etwas schiefläuft, sorgen sie sofort für Struktur, übernehmen die Führung und sind letztlich dafür verantwortlich, Services wieder in den Normalbetrieb zu bringen.
- Fungiert als zentrale Kommandozentrale für einen Incident
- Moderiert den Prozess end-to-end
- Steuert die Einbindung von Ressourcen
- Treibt den Prozess der Problemlösung voran und beauftragt SMEs mit spezifischen Analysen
- Erstellt Incident-Reports
- Führt bei kritischen Incidents eine Post-Mortem-Analyse durch
- Fügt Incidents einer fortlaufenden Wissensdatenbank zu Incidents und Lösungen hinzu
- Überwacht alle Prozesse im vorgesehenen Incident-Management-Workflow
- Stellt sicher, dass Incidents so gelöst werden, dass die definierten SLAs eingehalten werden
Prozessverantwortliche
Diese Person ist für den gesamten Incident-Response-Prozess verantwortlich, einschließlich seiner Anpassung bei Bedarf, um sicherzustellen, dass er mit den Geschäftszielen übereinstimmt.
- Definiert Key Performance Indicators (KPIs), um festzulegen, wie der Betrieb im Normalfall funktionieren soll
- Stellt sicher, dass die KPIs die Geschäftsziele unterstützen
- Entwirft, dokumentiert, überprüft und verbessert Prozesse.
- Lernt kontinuierlich aus Incidents, um Aspekte des Prozesses anzupassen und übergeordnete Geschäftsziele zu erreichen
Service-Desk-Personal (Tier 1)
Als erste Anlaufstelle, wenn jemand – ein Nutzer, Kunde, eine Führungskraft oder eine andere Person in der Organisation – einen Incident meldet, besteht der Tier-1-Service-Desk aus Personen mit grundlegenden, aber breit gefächerten Kenntnissen der häufigsten IT-Probleme, wie Passwort-Resets oder Druckerprobleme, sowie der Lösungen für bekannte Probleme.
- Erfasst initial Daten, bewertet und diagnostiziert jede Servicemeldung
- Handelt sofort, um einen ausgefallenen IT-Service so schnell wie möglich wiederherzustellen
- Eskaliert Probleme, die nicht sofort gelöst werden können, an den Tier-2-Service-Desk
- Dokumentiert alle Serviceanfragen und die unternommenen Lösungsschritte
- Hält die Person, die den Incident gemeldet hat, über den Status auf dem Laufenden
Support-Personal (Tier 2)
Diese Ebene ist typischerweise mit Personen besetzt, die über fortgeschrittenes Wissen zu bestimmten Systemen verfügen. Anfragen kommen in der Regel, wenn Tier-1-Personal ein Problem eskaliert, das es nicht lösen kann.
- Agiert als Fachexperte für ein bestimmtes System, eine Software oder Technologie
- Diagnostiziert das Problem
- Führt eine RCA (Root Cause Analysis) durch
- Dokumentiert alles, was zur Lösung des Incidents unternommen wurde, für die Wissensdatenbank
- Wenn der Incident gelöst ist, bestätigt die Lösung mit der Person, die ihn gemeldet hat
- Wenn der Incident nicht gelöst ist, eskaliert ihn an Tier 3 und/oder Engineering
- Stellt Fachexpertise bereit
Schlussfolgerung
Laut der 2019 IT Outage Impact Study waren die zwei größten verpassten Chancen, Ausfälle zu vermeiden, dass nicht erkannt wurde, wann Systeme nahe an ihrer Kapazitätsgrenze waren, und dass nicht erkannt wurde, wann die Performance – kritischer Hardware-, Software- oder Netzwerkkomponenten – langsam, aber stetig nachließ.
Dabei handelt es sich in erster Linie um menschliche Themen, die sich lösen lassen, indem robuste, aber skalierbare Prozesse/Praktiken eingeführt werden und Ihr IT-Personal darin geschult wird, diese anzuwenden. Fragen, die Sie sich beim Zusammenstellen Ihres Incident-Management-Teams stellen sollten, sind unter anderem:
- Bauen Sie IT-Kapazitäten schneller aus, als Sie Ressourcen einstellen, um sie zu managen?
- Haben Sie Schwierigkeiten, qualifizierte IT-Fachkräfte einzustellen und zu halten?
- Leiden Ihre IT-Trainings- und Weiterbildungsprogramme unter Budgetmangel?
Da Systeme immer komplexer werden – insbesondere durch den Einsatz von Cloud-Technologien – wird es weiterhin zu Ausfällen kommen. Viele lassen sich jedoch vermeiden, und die übrigen können deutlich schneller behoben werden, wenn Sie Ressourcen dafür bereitstellen, die richtigen qualifizierten Mitarbeitenden in den richtigen Rollen einzusetzen und bewährten Best Practices sowie Prozessen zu folgen.
Über Kepner-Tregoe
Kepner-Tregoe ist seit mehr als 60 Jahren Branchenführer für Problemlösungs- und Service-Excellence-Prozesse. Die Expertinnen und Experten von KT haben Unternehmen dabei unterstützt, ihre Leistungsfähigkeit im Incident- und Problem-Management durch Tools, Trainings und Beratung zu steigern – und so hochwirksame Service-Management-Teams aufzubauen, die bereit sind, auf die kritischsten Themen Ihres Unternehmens zu reagieren.