Warum Sie von den meisten Ausfällen nie etwas hören

Wenn ein Baum im Wald fällt und niemand da ist, um ihn zu hören, macht er dann ein Geräusch? Schwerwiegende Vorfälle und Technologieausfälle passieren täglich, aber nur wenige schaffen es in die Nachrichten oder führen zu tatsächlicher Kundenunzufriedenheit. Das liegt nicht daran, dass Kunden gegenüber Technologieproblemen abgestumpft sind oder geringe Erwartungen haben; und es liegt auch nicht daran, dass die auftretenden Vorfälle keine großen Probleme für Unternehmen darstellen. Der Grund, warum Sie von den meisten schwerwiegenden Vorfällen und Ausfällen nichts hören, ist, dass Dienstleister und IT-Abteilungen von Unternehmen sich der Bedeutung und den Auswirkungen der Bewältigung dieser Situationen zunehmend bewusst werden und präventive Maßnahmen ergreifen, um sie zu Nicht-Problemen werden zu lassen. Einige der Maßnahmen, die Ihr Unternehmen ergreifen kann, um Ihre Ausfälle aus den Schlagzeilen zu halten, umfassen:

Dienste auf Resilienz auslegen – Technische Probleme und Komponentenausfälle werden auftreten. Ein gut konzipierter, auf Resilienz ausgelegter Dienst umfasst Funktionen für Redundanz, Überwachung, Diagnose und Auswirkungensminderung, um den Dienst für den Endbenutzer verfügbar zu halten, selbst wenn eine oder mehrere Komponenten ausfallen sollten. Unternehmen setzen zunehmend neue Architekturen und Technologien mit integrierten Resilienzfunktionen ein und analysieren aktiv Altsysteme, um Schwachstellen und Risiken zu bewerten.

Auswirkungen auf Benutzer mindern – Selbst die am besten konzipierten Dienste sind nicht perfekt, und da sie von Menschen und Technologie abhängen, sind sie anfällig für Ausfälle. Nur weil ein Fehler oder ein Ereignis auftritt, bedeutet das nicht, dass der Dienst für die Benutzer nicht verfügbar sein wird. In vielen Fällen können Unternehmen die Auswirkungen auf Benutzer durch sekundäre Prozesse und Workarounds mindern – indem sie eine teilweise Dienstverfügbarkeit ermöglichen, bei der kritische Funktionen oder die volle Funktionalität mit reduzierter Leistung arbeiten. Diese teilweise Dienstverfügbarkeit sollte über einen rigorosen (Major) Incident Management-Prozess bewertet und ausgelöst werden, um sicherzustellen, dass die Maßnahmen wirksam sind und keine sekundären Vorfälle verursachen.

Externe Sichtbarkeit managen – Die Dauer und die Auswirkungen des Dienstausfalls sind entscheidend dafür, ob externe Parteien wissen, dass eine kritische Situation vorliegt. Der andere wichtige Faktor ist, wie (und ob) Ihr Unternehmen externe Stakeholder über den Vorfall informiert. Wie bei der Baum-Analogie werden die meisten externen Parteien den Ausfall nicht bemerken, es sei denn, jemand informiert sie darüber. Es gibt Situationen, in denen vertragliche Anforderungen eine Benachrichtigung vorschreiben. Längere Ausfallzeiten und/oder erhebliche Auswirkungen auf Endbenutzer können die Wahrscheinlichkeit erhöhen, dass externe Parteien von einem Ausfall erfahren. Im Zweifelsfall proaktiv kommunizieren. In diesen Situationen sollte die Kommunikation darauf abzielen, klare, spezifische und datenbasierte Updates der kritischsten Situations-/Auswirkungs-/Ursachen-/Lösungsinformationen bereitzustellen, die während des Vorfallbearbeitungsprozesses erfasst wurden, um den Stakeholdern zu versichern, dass das Unternehmen die Situation unter Kontrolle hat und ein robuster Prozess vorhanden ist.

Dienste zuerst wiederherstellen – Aufgrund der normalen (erwarteten) Leistungsvariabilität der Technologie sind Benutzer oft nicht bewusst, dass ein Ausfall vorliegt. Es ist wichtig, zwischen der Behebung des Ausfalls oder Problems und der Wiederherstellung des Dienstes für die Benutzer zu unterscheiden. Benutzer sind nur über die Dienstverfügbarkeit informiert, nicht über den Status der zugrunde liegenden Komponenten. Wenn die Dienste für Endbenutzer schnell wiederhergestellt werden, erfahren sie möglicherweise nie von dem Problem. Die Behebung des zugrunde liegenden Problems folgt oft einem separaten Zeitplan. Dies erfordert, dass die Person versteht, wann sie sich im Incident-Management-Modus oder im Problem-Management-Modus befindet.

Die meisten dieser Maßnahmen werden durch einen effektiven Major Incident Management-Prozess erleichtert, der es den Mitarbeitern des Unternehmens ermöglicht, vorbereitet zu sein, Situationsbewusstsein zu zeigen und reaktionsschnell und entschlossen zu handeln, wenn ein kritisches Problem oder ein Ausfall auftritt. Schwerwiegende Vorfälle müssen aufgrund der Auswirkungen auf die Benutzer und des Risikos, das sie für das Unternehmen darstellen, anders behandelt werden als normale tägliche operative Vorfälle. Als Teil Ihres gesamten Service Excellence-Programms sollten Sie Ihre Major Incident- und Risikomanagementprozesse zusätzlich zur Gestaltung der von Ihnen angebotenen Dienste überprüfen. Mit einer effektiven Strategie, die gut umgesetzt wird, werden Ihre Dienstausfälle nicht zu einer Nachricht und Ihre Endbenutzer werden zufrieden und produktiv sein.

Kepner-Tregoe ist der Branchenführer bei Problemlösungs- und Service Excellence-Prozessen für Operations und IT. Mit mehr als 60 Jahren Erfahrung in der Zusammenarbeit mit Organisationen verschiedener Branchen und Regionen wissen die Experten von KT, was erforderlich ist, um Ihre Prozesse von effektiv zu hochleistungsfähig zu machen.

Warum Sie von den meisten Ausfällen nie etwas hören

Aktuelles & Insights

Professionelle Entscheidungsfindung im Unternehmen: Methoden für IT und Produktion

GMP Deviation Classification: a guide to impact assessment

Build Trust in your CAPA Investigation