Monitoring wiederkehrender Probleme: Ein entscheidender Aspekt effektiver Betriebsabläufe

Seit Jahren gehen fortschrittliche IT-Betriebsorganisationen wiederkehrende Incidents an, indem sie deren Grundursache ermitteln und das zugrunde liegende Problem, das den Incident tatsächlich verursacht hat, dauerhaft beheben. Dies hat die Serviceverfügbarkeit verbessert, weil Probleme dauerhaft behoben werden, statt den Service lediglich wiederherzustellen.

In vielen Organisationen ist erheblicher Aufwand erforderlich, um die Analyse in der Tiefe durchzuführen, die nötig ist, um die Grundursache zu finden. Dadurch konzentriert man sich nur auf die größeren Themen: jene, die für externe Kunden sichtbar sind oder das Unternehmen lahmlegen könnten. Was wäre, wenn es möglich wäre, wiederkehrende Probleme zu beheben, bevor sie zu einem Ausfall führen? Strukturierte Problemanalysetechniken, kombiniert mit einer Ausweitung von Event-Management und Monitoring, können einer Organisation helfen, Incidents wirksamer zu verhindern.

Die meisten Monitoring-Aktivitäten konzentrieren sich auf das Erkennen von Ausfällen und Performanceeinbußen. Dabei kann das Vorhersagen eines Zustands, der – wenn er nicht adressiert wird – zu einem Incident führen könnte, und dessen dauerhafte Behebung den Incident tatsächlich verhindern, bevor er überhaupt entsteht.

Gängige Monitoring-Praktiken

Es gibt viele typische Bereiche, die Organisationen überwachen:

Netzwerk- und Leitungsstatus (up/down) sowie Datenverkehr
Betrieb von Load Balancern
Funktionalität von Servern und virtuellen Servern
Applikations-Performance
Sicherheitsverletzungen
Rechenzentrumsumgebung (Temperatur, Strom usw.)

Wo das Event-Management – ähnlich wie proaktives Problem-Management – aufgrund der fehlenden Möglichkeit, zu viele Informationen zu korrelieren, bislang im Umfang begrenzt war, stehen in vielen Toolsets inzwischen Funktionen für Datenaggregation und Operational Intelligence zur Verfügung. Damit kann eine Organisation praktisch alles überwachen, was Daten liefert, die erfasst werden können. Denken Sie an die Vorteile von:

Aggregieren normaler Muster des Datenverkehrs in einem Netzwerk, sodass Abweichungen von diesen Mustern mithilfe künstlicher Intelligenz erkannt werden können, um eine potenzielle Serviceverletzung zu identifizieren
Nachverfolgen des Applikationsverhaltens im Verhältnis zu Server-Speicher-, Festplatten- und CPU-Auslastung, um Normalbereiche zu verstehen und potenzielle Auswirkungen durch eine Codeänderung zu erkennen, bevor sie die Performance beeinträchtigt
Überwachen der Nutzung von Festplatten- und Tabellenspeicher, sodass ein zunehmendes Datenbankvolumen adressiert werden kann, bevor Auswirkungen spürbar werden (in einer virtuellen Umgebung kann dies automatisch gesteuert werden, wodurch potenzielle Incidents verhindert werden)

Ziel ist es, so viele Informationen über die Betriebsumgebung zu erfassen, wie Sensoren und Monitoring-Tools liefern können, und dies dann mit dem Einsatz von KI- und Operational-Intelligence-Tools zu kombinieren, um Abweichungen von erwarteten Ergebnissen zu erkennen. In Verbindung mit einem guten Event-Management-Tool können diese anschließend passend klassifiziert werden:

Kritisch: Die Abweichung weist auf einen Ausfall eines kritischen Systems hin
Schwerwiegend: Die Abweichung weist auf den Verlust einer Funktion/eines Features eines Services hin
Gering: Es liegt eine Performance- oder sonstige Beeinträchtigung der Funktionalität vor
Warnung: Es ist noch keine Beeinträchtigung oder kein Ausfall eingetreten, aber ein Schwellenwert wird erreicht. Ein sofortiges Eingreifen könnte einen Betriebsincident abmildern
Informativ: Es ist eine Abweichung vom Normalbetrieb aufgetreten, aber sie ist noch nicht kritisch genug, um Anlass zur Sorge zu geben

In der Regel lösen kritische und schwerwiegende Alerts formale (Major-)Incident-Management-Prozesse aus und führen – wenn sie umfangreich oder wiederkehrend sind – letztlich zu einer Grundursachenanalyse und Reparatur. Das ist reaktives Problem-Management und eignet sich gut, um kostspielige und wiederkehrende Incidents zu eliminieren. Das Bearbeiten wiederkehrender geringer, Warn- und Informations-Alerts bietet jedoch die Chance, die Ursache zu korrigieren, bevor überhaupt der erste Incident entsteht.

Die Herausforderung für viele Organisationen liegt in der Fähigkeit, mehrere Themen gleichzeitig zu bewältigen. Wenn eine Organisation bereits damit kämpft, kritische und schwerwiegende Probleme rechtzeitig zu adressieren, wird der Gedanke an eine Ausweitung des Umfangs mit erheblichem Zynismus aufgenommen. In heutigen Betriebsumgebungen ist es jedoch entscheidend, dieses Niveau zu erreichen, um die Kosten von Betriebsausfällen abzuwehren.

Der Schlüssel liegt darin, strukturierte Problemlösungstechniken mit der Fähigkeit zu verbinden, Machine Learning und künstliche Intelligenz zu nutzen, um Probleme zu erfassen und zu kategorisieren, damit IT-Ingenieure ihre Problemlösungsarbeit schneller fokussieren können und bessere Daten in den Analyseprozess einfließen. Kepner-Tregoe-Techniken, kombiniert mit einer Ausweitung des Monitoring-Programms, können einer Organisation helfen, dies zu erreichen.

Erste Schritte

Dies zu erreichen ist ein iterativer Prozess.

Schritt 1: Zunächst muss eine Betriebsorganisation in der Lage sein, auf kritische und schwerwiegende Incidents erfolgreich zu reagieren. Wo immer möglich, sollten automatisierte Reaktionen verfügbar sein, um den Service wiederherzustellen. Erst wenn dies fehlschlägt, sollte eine Benachrichtigung der zuständigen Teams erforderlich werden. Automatisierte Reaktionen können grundlegende Serviceprobleme nicht nur schneller beheben, sondern schaffen auch mehr Zeit, um die Grundursache zu adressieren und das größere Problem dauerhaft zu eliminieren (Hinweis: In einigen Fällen ist eine automatisierte Reaktion, die eine Änderung vornimmt und das Problem abmildert, der erste Schritt; eine dauerhafte Lösung kann ein längerfristiges Ziel sein).

Schritt 2: Sobald die kritischen Themen „unter Kontrolle“ sind, sollten Daten aus geringfügigen Alerts, Warnungen und Informations-Alerts genutzt werden, um Muster zu etablieren. Hier kann die Fähigkeit, Operational Intelligence und andere automatische Analyse-Tools einzusetzen, helfen, potenziell wiederkehrende Probleme zu identifizieren. Auch wenn es möglicherweise nicht nötig ist, sie sofort zu adressieren, sollten sie als Probleme protokolliert, analysiert und mit einem temporären, automatisierten Workaround („Band-Aid“) behandelt werden, um zu verhindern, dass sie zu Incidents führen. Wo der Workaround nicht erfolgreich ist, sollten die zuständigen Teams benachrichtigt werden, um den Zustand zu beheben, bevor es zu erheblichen Incidents kommt.

Schritt 3: Der dritte und letzte Schritt besteht darin, nach der dauerhaften Lösung für Probleme zu suchen, für die Workarounds („Band-Aids“) angewendet wurden. Das bedeutet, die Ursache zu bestimmen, strukturierte Problemanalysetechniken zu nutzen und diejenigen dauerhaft zu beheben, deren Lösung sich finanziell sinnvoll begründen lässt. Es ist nicht notwendig, alles zu lösen: Wenn eine automatisierte Reaktion auf ein geringfügiges Problem verhindert, dass ein Incident entsteht, ist die Automatisierung alles, was benötigt wird.

Letztlich besteht der Wert dieser Übung darin, die heute verfügbaren Tools zu nutzen, um den Umfang einer Monitoring- und Event-Management-Praxis zu erweitern, und diese Erweiterung dann einzusetzen, um kostspielige Incidents zu verhindern. Dieses Analyse- und Reaktionsniveau kann nicht nur den Umsatzstrom der Organisation schützen, sondern auch Vertrauen in kundennahe Betriebsabläufe sicherstellen.

Über Kepner-Tregoe

Kepner-Tregoe ist seit mehr als 60 Jahren Branchenführer für Problemlösungs- und Service-Excellence-Prozesse. Die Expertinnen und Experten von KT haben Unternehmen dabei unterstützt, ihre Leistungsfähigkeit im Incident- und Problem-Management durch Tools, Trainings und Beratung zu steigern – und so hochwirksame Service-Management-Teams aufzubauen, die bereit sind, auf die kritischsten Themen Ihres Unternehmens zu reagieren.

Erfahren Sie mehr darüber, wie Kepner-Tregoe dies in Ihrer Organisation einrichten kann.

Monitoring wiederkehrender Probleme: Ein entscheidender Aspekt effektiver Betriebsabläufe

Gängige Monitoring-Praktiken

Erste Schritte

Über Kepner-Tregoe

Aktuelles & Insights

Build Trust in your CAPA Investigation

2 Stunden KT: Lernen Sie die Problemlösungs-Methoden von Kepner-Tregoe kennen!

Why Jumping to Solutions Without Finding the Root Cause Costs Organizations More in the Long Run