Überwachung auf wiederkehrende Probleme: Ein entscheidender Aspekt effektiven Handelns

Seit Jahren gehen fortschrittliche IT-Betriebe bei sich wiederholenden Störungen der Ursache auf den Grund und beheben dauerhaft das zugrunde liegende Problem, das das Problem tatsächlich verursacht hat. Dies hat zu einer Verbesserung der Serviceverfügbarkeit geführt, da Probleme dauerhaft behoben werden, anstatt den Service einfach wiederherzustellen.

In vielen Unternehmen ist es mit erheblichem Aufwand verbunden, die erforderliche Analyse durchzuführen, um die Grundursache zu finden, was dazu führt, dass man sich nur auf die größeren Probleme konzentriert: diejenigen, die für externe Kunden sichtbar sind oder das Unternehmen in die Knie zwingen könnten. Was wäre, wenn es möglich wäre, wiederkehrende Probleme anzugehen, bevor sie einen Ausfall verursachen? Strukturierte Problemanalysetechniken in Kombination mit einer Ausweitung der Ereignisverwaltung und -überwachung können einem Unternehmen helfen, Vorfälle effektiver zu verhindern.

Die meisten Überwachungsmaßnahmen konzentrieren sich auf die Erkennung von Ausfällen und Leistungsverschlechterungen, wobei die Vorhersage eines Zustands, der zu einem Zwischenfall führen könnte, wenn er nicht behoben wird, und dessen dauerhafte Behebung tatsächlich verhindern kann, dass der Zwischenfall überhaupt erst eintritt.

Gemeinsame Überwachungspraktiken

Es gibt viele gemeinsame Bereiche, die Organisationen überwachen:

  • Netzwerk- und Leitungsstatus (Up/Down) und Datenverkehr
  • Lastausgleichsoperationen
  • Server und virtuelle Serverfunktionen
  • Leistung der Anwendung
  • Sicherheitsverstöße
  • Umgebung des Rechenzentrums (Temperatur, Elektrizität usw.)

Während das Ereignismanagement, wie auch das proaktive Problemmanagement, aufgrund der Unfähigkeit, zu viele Informationen zu korrelieren, in seinem Umfang begrenzt war, sind Datenaggregations- und Operational-Intelligence-Funktionen jetzt in vielen Toolsets verfügbar. Diese ermöglichen es einer Organisation, praktisch alles zu überwachen, was Daten liefert, die gesammelt werden können. Bedenken Sie die Vorteile von:

  • Aggregieren normaler Muster des Datenverkehrs über ein Netz, so dass eine Abweichung von diesen Mustern durch den Einsatz künstlicher Intelligenz erkannt werden kann, wodurch eine potenzielle Dienstverletzung identifiziert wird
  • Verfolgung des Anwendungsverhaltens anhand der Speicher-, Festplatten- und CPU-Auslastung des Servers, um die normalen Bereiche zu verstehen und mögliche Auswirkungen einer Codeänderung zu erkennen, bevor diese die Leistung beeinträchtigt
  • Überwachung der Nutzung von Festplatten- und Tabellenspeicherplatz, so dass eine Vergrößerung der Datenbank behoben werden kann, bevor sich die Auswirkungen bemerkbar machen (in einer virtuellen Umgebung kann dies automatisch verwaltet werden, so dass potenzielle Zwischenfälle vermieden werden)

Das Ziel besteht darin, so viele Informationen über die Betriebsumgebung zu sammeln, wie Sensoren und Überwachungswerkzeuge liefern können, und diese dann mit dem Einsatz von Werkzeugen der künstlichen und betrieblichen Intelligenz zu kombinieren, um Abweichungen von den erwarteten Ergebnissen zu ermitteln. In Verbindung mit einem guten Ereignis-Management-Tool können diese dann entsprechend klassifiziert werden:

  • Kritisch: Die Abweichung weist auf einen Ausfall eines kritischen Systems hin.
  • Schwerwiegend: Die Änderung bedeutet den Verlust eines Merkmals/einer Funktion einer Dienstleistung.
  • Geringfügig: Es liegt eine Leistungs- oder sonstige Funktionsverschlechterung vor.
  • Warnung: Es ist keine Beeinträchtigung oder Störung aufgetreten, aber ein Schwellenwert wird erreicht. Ein sofortiges Eingreifen könnte eine Betriebsstörung abmildern.
  • Informativ: Es ist eine Abweichung vom Normalbetrieb aufgetreten, die aber noch nicht kritisch genug ist, um Anlass zur Sorge zu geben.

In der Regel lösen kritische und schwerwiegende Warnmeldungen formale (schwerwiegende) Störungsmanagementverfahren aus und führen schließlich zu einer Ursachenanalyse und Reparatur, wenn sie umfangreich sind oder sich wiederholen. Dies ist ein reaktives Problemmanagement und funktioniert gut, um kostspielige und sich wiederholende Vorfälle zu vermeiden. Die Behandlung von sich wiederholenden geringfügigen, Warn- und Informationsmeldungen bietet jedoch die Möglichkeit, die Ursache zu beheben, bevor der erste Vorfall überhaupt eintritt.

Die Herausforderung für viele Organisationen liegt in der Fähigkeit, sich mit mehreren Problemen gleichzeitig zu befassen. Wenn ein Unternehmen Schwierigkeiten hat, die kritischen und wichtigen Probleme rechtzeitig anzugehen, stößt der Gedanke an eine Ausweitung des Aufgabenbereichs auf erheblichen Zynismus, doch in den heutigen Betriebsumgebungen ist es entscheidend, dieses Niveau zu erreichen, um die Kosten von Betriebsausfällen abzuwenden.

Der Schlüssel liegt in der Verbindung von strukturierten Problemlösungstechniken mit der Fähigkeit, maschinelles Lernen und künstliche Intelligenz zur Aufzeichnung und Kategorisierung der Probleme zu nutzen, so dass IT-Techniker ihre Problemlösungsbemühungen schneller und mit besseren Daten in den Analyseprozess einfließen lassen können. Kepner-Tregoe-Techniken in Kombination mit einer Erweiterung des Überwachungsprogramms können einer Organisation dabei helfen, dies zu erreichen.

Erste Schritte

Dies ist ein iterativer Prozess.

Schritt 1: Erstens muss eine Betriebsorganisation in der Lage sein, erfolgreich auf kritische und größere Vorfälle zu reagieren. Wo immer möglich, müssen automatische Reaktionen zur Wiederherstellung des Dienstes zur Verfügung stehen. Nur wenn dies nicht gelingt, sollten die zuständigen Teams benachrichtigt werden. Eine automatisierte Reaktion kann nicht nur grundlegende Serviceprobleme schneller wiederherstellen, sondern verschafft auch mehr Zeit für die Behebung der Grundursache und die dauerhafte Beseitigung des größeren Problems (Anmerkung: In einigen Fällen ist eine automatisierte Reaktion, die eine Änderung vornimmt, die das Problem abschwächt, der erste Schritt, während eine dauerhafte Lösung ein längerfristiges Ziel sein kann).

Schritt 2: Sobald die kritischen Probleme "unter Kontrolle" sind, sollte die Sammlung von Daten aus kleineren Alarmen, Warnungen und Informationswarnungen dazu dienen, Muster zu erkennen. Hier kann der Einsatz von Operational Intelligence und anderen automatischen Analysewerkzeugen bei der Identifizierung potenziell wiederkehrender Probleme helfen. Auch wenn sie nicht sofort behoben werden müssen, sollten sie als Probleme protokolliert, analysiert und mit einer vorübergehenden, automatisierten Bandage angegangen werden, um zu verhindern, dass sie zu Zwischenfällen führen. Wenn die Notlösung nicht erfolgreich ist, sollten die entsprechenden Teams benachrichtigt werden, um das Problem zu lösen. bevor es zu erheblichen Zwischenfällen kommt.

Schritt 3: Der dritte und letzte Schritt besteht in der Suche nach einer dauerhaften Lösung für Probleme, die mit Hilfsmitteln behoben wurden. Das bedeutet, die Ursache zu ermitteln, strukturierte Problemanalysetechniken anzuwenden und diejenigen Probleme dauerhaft zu lösen, deren Behebung aus finanzieller Sicht sinnvoll ist. Es ist nicht notwendig, alles zu beheben: Wenn eine automatisierte Reaktion auf ein geringfügiges Problem das Auftreten eines Vorfalls verhindert, ist die Automatisierung alles, was nötig ist.

Letztendlich besteht der Wert dieser Übung darin, die jetzt verfügbaren Tools zu nutzen, um den Umfang einer Überwachungs- und Ereignisverwaltungspraxis zu erweitern und diese Erweiterung dann zu nutzen, um kostspielige Vorfälle zu verhindern. Dieses Niveau der Analyse und Reaktion kann nicht nur die Einnahmequellen des Unternehmens schützen, sondern auch das Vertrauen in die kundenorientierten Abläufe gewährleisten.

Über Kepner-Tregoe

Kepner-Tregoe ist seit mehr als 60 Jahren branchenführend bei Problemlösungs- und Service-Excellence-Prozessen. Die Experten von KT haben Unternehmen durch Tools, Schulungen und Beratung dabei geholfen, ihr Leistungsniveau im Vorfall- und Problemmanagement zu erhöhen - was zu hocheffektiven Service-Management-Teams geführt hat, die bereit sind, auf die kritischsten Probleme Ihres Unternehmens zu reagieren.

Erfahren Sie mehr darüber, wie Kepner-Tregoe dies in Ihrer Organisation einrichten kann.

Blog Bild 1
Zwischenfälle und Probleme - zwei Seiten einer Münze
Blog Bild 1
Problem gelöst! Beseitigung eines wiederkehrenden Fehlers
Blog Bild 1
"ES IST WIEDER": Das Dilemma des wiederkehrenden Problems
Blog Bild 1
Abbildung des Weges der Support-Organisationen zum proaktiven Problemmanagement

Wir sind Experten in:

Kontaktieren Sie uns

für Anfragen, Details oder ein Angebot!