Proaktives Problem-Management

Von Andrew Vermes, Kepner-Tregoe

Jeden Tag gibt es diese "Homer Simpson"-Momente: Man sieht sich ein neues Projekt an und hat das Gefühl, dass etwas schief gehen könnte, aber aus verschiedenen Gründen (Zeit, Stress, Budget) tut man nichts. Und dann passiert es...Oh, Gott!

Wie hoch schätzen Sie den Prozentsatz der Probleme/Probleme/negativen Ereignisse ein, die Sie hätten kommen sehen können? Als wir diese Frage kürzlich in einem Webcast an IT-Servicefachleute stellten, antworteten diese mit überwältigender Mehrheit, dass ein erheblicher Prozentsatz der Probleme hätte verhindert werden können, wobei die Antworten von 20% bis 85% reichten.

Mit IT-Vorfällen ist es wie mit Zecken: Ein Großteil des Geschehens spielt sich unter der Haut ab. Nachdem ein Zeckenbiss unbemerkt geblieben ist, kann es Wochen, Monate oder Jahre dauern, bis in den schlimmsten Fällen Borreliose diagnostiziert wird. Wie bei Zeckenbissen sind es die kleinen, stechenden Probleme, die auf größere Probleme hinweisen. Vorbeugung ist das Beste. Sie müssen bereit und vorbereitet sein, nicht nur, um den ersten "Biss" zu verhindern, sondern auch, um eventuelle Maßnahmen zu ergreifen, die das Problem lindern, wenn es bereits eingetreten ist.

Warum unnötige Risiken eingehen? Betrachten Sie einen IT-Vorfall und seine Auswirkungen, wie in dieser Grafik dargestellt. Die Risiken entwickeln sich weiter und können gewaltig sein.

Warum also gehen die Menschen Risiken ein? Es wird versäumt, die Folgen zu bewerten und angemessen zu messen. Während die Kosten für die Bearbeitung von Vorfällen oft gemessen werden (Teile, Arbeit, Reisen zur Behebung des Problems), ist es schwierig, die tatsächlichen Kosten für den Ruf eines Unternehmens nach einer Ausfallzeit zu schätzen. Haben Sie Kunden für immer verloren? Was ist sonst noch passiert? Arbeitsausfälle lassen sich nur schwer abschätzen. Der Produktivitätsverlust kann enorm sein, doch die Gründe, nicht proaktiv und präventiv tätig zu werden, sind eigentlich ziemlich schwach. Wenn man die Kosten von Zwischenfällen und die verschiedenen Kosten von Arbeitsausfällen zusammenzählt, ist das Ergebnis erschütternd. Risikomanagement ist es wert.

Stabilität und Konsistenz sind der Weg, um den größten Nutzen aus der Arbeit zu ziehen. Um eine konsistente Arbeitsweise zu erreichen, ist es notwendig, Risiken zu managen. Ob Sie Kepner-Tregoe verwenden Analyse potentieller Probleme (PPA)-Methode oder einer anderen Methode, wie z. B. FMEA (was ebenfalls wirksam ist, aber mehr Zeit in Anspruch nimmt), ist es von entscheidender Bedeutung, dies zu antizipieren und ein Risikomanagement einzuführen.

Manchmal lohnt es sich, einen Schritt zurückzutreten und zu prüfen, was zuerst angegangen werden muss, bevor man sich an die Risikoanalyse macht. Möchte ich eine Risikobewertung durchführen oder sollte ich die getroffene Entscheidung überprüfen? Sollen wir ein Risiko antizipieren oder sollen wir ein tatsächliches Problem lösen?

Wenn Sie davon ausgehen, dass eine Risikoanalyse das Richtige ist, sollten Sie sich die folgenden vier Fragen stellen:

1. Was könnte bei dieser Aktivität oder diesem Prozessschritt schiefgehen?

2. Warum könnte das passieren?

3. Wie können wir sie stoppen?

4. Welche Eventual- oder Ersatzpläne sind erforderlich, wenn die Präventionsmaßnahme fehlschlägt?

Zu oft wird die Risikoanalyse zu sehr vereinfacht. Wenn wir zum Beispiel fragen: Was könnte schief gehen? Unsere Antwort ist eindimensional: kann ein Upgrade fehlschlagen. Wenn wir fragen: Was werden wir tun? Wir stellen uns eine einzige Vorgehensweise vor: zurückspulen.

Bedauerlicherweise ist dies möglicherweise nicht ausreichend. Eine detailliertere Risikoplanung ist wesentlich effektiver. In demselben Beispiel weisen wir ausdrücklich darauf hin: Wir haben 12 Stunden Zeit, um unsere Speicherverwaltungssoftware auf Version 5.20 zu aktualisieren.

1. Was könnte schiefgehen?

  • Die Zeit reicht nicht aus, um das Upgrade in 12 Stunden durchzuführen.
  • Die Systemadministratoren können einen Fehler machen, der Zeit kostet
  • Ein Fehler im Upgrade-Skript führt dazu, dass das Upgrade fehlschlägt
  • Ein latenter Fehler in den Rechnern der Kunden führt zum Scheitern des Upgrades

2. Warum?

  • Das Root-Dateisystem ist zu klein, wir sind nicht in der Lage, vorhandene Patches zu sichern, die Patch-Dateien sind latent beschädigt
  • Die Systemadministratoren sind abgelenkt, es gibt Lücken in den zu befolgenden Upgrade-Verfahren, etwas Unerwartetes tritt auf

3. Wie können wir es aufhalten (Präventivmaßnahmen)?

  • Üben Sie das Upgrade im Voraus
  • Machen Sie das Upgrade zu einer Priorität für die Systemadministratoren, erstellen und testen Sie Verfahren, lassen Sie die Systemadministratoren die Praxis durchführen
  • Prüfung von Problemen mit der Support-Datenbank und Überprüfung des Upgrades
  • Prüfen Sie den Rechner, verwenden Sie für den Test eine Kopie der Kundenumgebung, stellen Sie sicher, dass das Festplattenlayout und die Architektur des Rechners identisch sind, und vergewissern Sie sich, dass das Upgrade unter dem aktuellen Betriebssystem ausgeführt werden kann.

4. Welche Eventualmaßnahmen/Backup-Pläne sind erforderlich, wenn wir in 12 Jahren nicht aufrüsten?

  • Verwerfen Sie das Upgrade, laden Sie das Original erneut und testen Sie die Funktionalität.
  • Bewertung der Schwere des Fehlers und Abbruch der Aktualisierung, wenn sie nicht rechtzeitig durchgeführt werden kann
  • Sammeln Sie so viele Daten wie möglich über den Upgrade-Fehler und suchen Sie in den Support-Datenbanken nach weiteren
  • Versuchen Sie, das Problem zu beheben oder brechen Sie das Upgrade ab.

Effizientes Management von Risikoanforderungen die Liebe zum Detail. Bevor man eine wichtige Maßnahme ergreift, lohnt es sich, die Risikobewertung im Detail zu prüfen und Maßnahmen zu ergreifen, wenn ein Teil vage oder auslegungsbedürftig ist.

Wann sollte eine Risikoanalyse durchgeführt werden?

Innerhalb des ITIL-Rahmens wird die Risikoanalyse angezeigt, sobald eine Problemlösung oder ein Workaround identifiziert wurde und bevor sie umgesetzt wird (siehe gelbe PPA in der ITIL-Grafik).

Das gleiche Timing gilt in der Produktion und in anderen Unternehmen. Bevor Sie eine wichtige Maßnahme ergreifen, die die Art Ihres Prozesses verändern könnte, führen Sie eine detaillierte Risikoanalyse durch und protokollieren Sie die Risiken der vorgeschlagenen Präventiv- und Eventualmaßnahmen sowie der tatsächlich durchgeführten Maßnahmen. So können Sie sich nicht nur auf Risiken vorbereiten und ihnen vorbeugen, sondern Sie haben auch die Aussagekraft einer Risikoanalyse für die Zukunft erhöht.

Aber warum warten? Das Risikomanagement muss nicht erst bei der Planung von Veränderungen beginnen. Kleine Störungen können größeren Vorfällen vorausgehen. Dies sind die Ausgangspunkte für proaktives Handeln. In jedem komplexen System passieren ständig kleine Dinge. Fast jeden Tag laufen einige Dinge aus dem Ruder. Es zahlt sich aus, sie zur Kenntnis zu nehmen, bevor es zu vielen Störungen kommt und die Situation aus den Fugen gerät und schwierig wird. Wenn es erst einmal ein Problem gibt, ist es schwieriger, diese kleinen Dinge wiederzufinden, wenn sie nicht beachtet wurden.

Gut funktionierende Ereignisverwaltungssysteme achten auf Probleme, aber was überwachen Sie? Woher wissen Sie, welche Schwankungen wichtig sind? Eine Möglichkeit besteht darin, die Benutzer zu bitten, Ihnen zu melden, wenn kleine Dinge passieren - auch wenn nichts schief läuft. Wenn Sie die Anomalien, die sich auf die Benutzer auswirken, früher bemerken, können Sie die Dinge bereinigen, bevor es zu Problemen kommt. IT-Support-Mitarbeiter, die regelmäßig Probleme bearbeiten, können proaktive Tickets verwenden, um kleine Störungen zu erfassen: kein Problem gemeldet, aber wir haben ein ungewöhnliches Verhalten festgestellt. Erfassen Sie sie und betreiben Sie Risikomanagement. Proaktive Tickets können einen großen Einfluss auf die Zuverlässigkeit haben. Proaktivität ist wie eine Versicherung. Es ist besser, sie zu haben, als ohne sie auszukommen.

Erste Schritte

Versuchen Sie es selbst: proaktives Risikomanagement ist praktisch. Überlegen Sie sich die drei wichtigsten Dinge, die Sie bei Ihrer Arbeit tun werden, wählen Sie eines davon aus und führen Sie ein Risikomanagement durch. Wenn Ihnen etwas nicht richtig erscheint, eröffnen Sie einen Fall oder halten Sie ihn fest. Vielleicht wird es Ihnen in Zukunft nützlich sein.

Wir sind Experten in:

Kontaktieren Sie uns

für Anfragen, Details oder ein Angebot!