Warum man von den meisten Ausfällen nichts erfährt

Wenn ein Baum im Wald fällt und niemand da ist, um es zu hören, macht es dann ein Geräusch? Größere Zwischenfälle und technologische Ausfälle passieren jeden Tag, aber nur wenige schaffen es in die Nachrichten oder führen zu tatsächlicher Kundenunzufriedenheit. Das liegt nicht daran, dass die Kunden gegenüber Technologieproblemen abgestumpft sind oder niedrige Erwartungen haben; und es liegt auch nicht daran, dass die auftretenden Vorfälle keine großen Probleme für die Unternehmen darstellen. Der Grund dafür, dass man von den meisten größeren Störungen und Ausfällen nichts hört, liegt darin, dass sich Dienstanbieter und IT-Abteilungen von Unternehmen zunehmend der Bedeutung und der Auswirkungen des Managements solcher Situationen bewusst werden und vorbeugende Maßnahmen ergreifen, um sie zu vermeiden. Einige der Maßnahmen, die Ihr Unternehmen ergreifen kann, um Ausfälle aus den Nachrichten herauszuhalten, sind:

Entwurfsdienstleistungen für Resilienz - Technische Probleme und Ausfälle von Komponenten sind vorprogrammiert. Ein gut durchdachter, auf Ausfallsicherheit ausgelegter Dienst umfasst Funktionen für Redundanz, Überwachung, Diagnose und Schadensbegrenzung, damit der Dienst für den Endbenutzer verfügbar bleibt, selbst wenn eine oder mehrere Komponenten ausfallen. Unternehmen setzen zunehmend neue Architekturen und Technologien mit integrierten Ausfallsicherheitsfunktionen ein und analysieren aktiv Altsysteme, um Schwachstellen und Risiken zu bewerten.

Abmilderung der Auswirkungen auf die Nutzer - Selbst die am besten konzipierten Dienste sind nicht perfekt, und da sie von Menschen und Technologie abhängig sind, sind sie anfällig für Ausfälle. Nur weil ein Ausfall oder ein Ereignis eintritt, bedeutet das nicht, dass der Dienst für die Nutzer nicht verfügbar ist. In vielen Fällen können Unternehmen die Auswirkungen auf die Benutzer durch sekundäre Prozesse und Umgehungslösungen abmildern, indem sie eine teilweise Verfügbarkeit des Dienstes ermöglichen, bei der kritische Funktionen oder die volle Funktionalität auf einem reduzierten Leistungsniveau arbeiten. Diese Teilverfügbarkeit des Dienstes sollte im Rahmen eines strengen (Major) Incident Management-Prozesses bewertet und ausgelöst werden, um sicherzustellen, dass die Maßnahmen wirksam sind und keine weiteren Vorfälle verursachen.

Verwaltung der externen Sichtbarkeit - Die Dauer und die Auswirkungen des Serviceausfalls sind entscheidend dafür, ob externe Parteien von einer kritischen Situation erfahren. Ein weiterer wichtiger Faktor ist die Art und Weise, wie (und ob) Ihr Unternehmen die externen Beteiligten über den Vorfall informiert. Wie bei der Analogie mit dem Baum werden die meisten externen Parteien nichts von dem Ausfall wissen, es sei denn, jemand erzählt ihnen davon. Es gibt einige Situationen, in denen vertragliche Anforderungen eine Benachrichtigung vorschreiben. Längere Ausfallzeiten und/oder erhebliche Auswirkungen auf die Endbenutzer können die Wahrscheinlichkeit erhöhen, dass externe Parteien von einem Ausfall erfahren. Im Zweifelsfall sollten Sie proaktiv kommunizieren. In diesen Situationen sollte sich die Kommunikation darauf konzentrieren, klare, spezifische und datenbasierte Aktualisierungen der kritischsten Informationen zu Situation/Auswirkung/Ursache/Lösung zu liefern, die während des Störungsbearbeitungsprozesses erfasst wurden, um den Beteiligten zu versichern, dass das Unternehmen die Situation unter Kontrolle hat und ein robuster Prozess vorhanden ist.

Dienste zuerst wiederherstellen - Aufgrund der normalen (erwarteten) Leistungsschwankungen der Technologie sind sich die Benutzer oft nicht bewusst, dass es zu einem Ausfall gekommen ist. Es ist wichtig, zwischen der Behebung des Ausfalls oder des Problems und der Wiederherstellung des Dienstes für die Benutzer zu unterscheiden. Die Benutzer kennen nur die Verfügbarkeit der Dienste, nicht aber den Status der zugrunde liegenden Komponenten. Wenn die Dienste für die Endbenutzer schnell wiederhergestellt werden, bemerken sie das Problem möglicherweise gar nicht. Die Behebung des zugrundeliegenden Problems folgt oft einem eigenen Zeitplan. Dies setzt voraus, dass der Einzelne weiß, wann er sich im Modus des Vorfallsmanagements oder im Modus des Problemmanagements befindet.

Die meisten dieser Maßnahmen werden durch ein effektives Störungsmanagement erleichtert, das die Mitarbeiter des Unternehmens in die Lage versetzt, vorbereitet zu sein, ein Situationsbewusstsein zu entwickeln und beim Auftreten eines kritischen Problems oder Ausfalls reaktionsschnell und entschlossen zu handeln. Größere Vorfälle müssen aufgrund der Auswirkungen auf die Benutzer und des Risikos, das sie für das Unternehmen darstellen, anders behandelt werden als normale, alltägliche Betriebsvorfälle. Als Teil Ihres allgemeinen Service Excellence-Programms sollten Sie neben der Gestaltung der von Ihnen angebotenen Dienste auch Ihre Prozesse für das Management größerer Zwischenfälle und Risiken überprüfen. Mit einer wirksamen Strategie, die gut ausgeführt wird, werden Ihre Serviceausfälle nicht zu einer Nachricht werden, und Ihre Endbenutzer werden zufrieden und produktiv sein.

Kepner-Tregoe ist branchenführend bei Problemlösungs- und Service-Excellence-Prozessen für Betrieb und IT. Mit mehr als 60 Jahren Erfahrung in der Zusammenarbeit mit Unternehmen aus verschiedenen Branchen und Regionen wissen die Experten von KT, was erforderlich ist, um Ihre Prozesse von effektiv zu hochleistungsfähig zu machen.

Blog Bild 1
Planung ist der Schlüssel zu einem Systemausfall in NYSE: 10 wichtige Komponenten für Ihr Incident Management Playbook
Blog Bild 1
Abschaltungen, Umrüstungen und Ausfälle: Erster Teil
Blog Bild 1
Abschaltungen, Umrüstungen und Ausfälle: Zweiter Teil
Blog Bild 1
Abschaltungen, Umrüstungen und Ausfälle: Dritter Teil

Wir sind Experten in:

Kontaktieren Sie uns

für Anfragen, Details oder ein Angebot!