ger

Die lauernden latenten Krokodile des IT-Supports

Von Steve White

Was hält eine Gazelle nachts wach? Es könnte der Gedanke an die lauernden Krokodile sein, die in Flüssen und Wasserlöchern darauf warten, ohne Vorwarnung über sie herzufallen. Die kluge Gazelle vermeidet es, sich am Rande der Herde aufzuhalten und hofft, dass die Zahl der Krokodile gering ist.

Es ist überlebenswichtig, in der Mitte der Herde zu bleiben. Im IT-Support kennen wir die Auswirkungen dieses Überlebensinstinkts, wenn eine neue Software auf den Markt kommt. Die ersten Anwender werden sie laden und damit spielen, aber nur wenige werden sie sofort als zentrales Geschäftswerkzeug einsetzen. Die klugen Gazellen warten, bis das Wasser getestet wurde. Kluge Gazellen wissen auch, dass sie mithalten müssen und nicht zu Nachzüglern werden dürfen. Die trödelnden Gazellen sind gefährdet, da sie unternehmenskritische Anwendungen verwenden, die der Anbieter nicht mehr unterstützt.

Ohne Wachsamkeit ist es leicht, angreifbar zu sein und von der Herde getrennt zu werden. Wenn man ohne klares Risikomanagement vorprescht, erhöht sich die Anfälligkeit: Wenn man neu freigegebenen und ungetesteten Code auf Produktionsanlagen oder ungetestete Hardware in eine Produktionsumgebung lädt, beginnen die Krokodile zu kreisen. Wer seine Systeme nicht aktualisiert und exotische Lösungen einsetzt, gerät ins Hintertreffen: Software oder Hardware, die nicht mehr unterstützt wird, ist ein Pfund, mit dem man wuchern kann. Darüber hinaus kann die Integration von Hardware und Software in ein System, um es einzigartig zu machen, und die Änderung des Kerncodes, um es einzigartig zu machen, den Schutz der "Herde" zunichte machen. Die Anfälligkeit wird durch exotische Lasten oder Profile erhöht, die das System überfordern, oder durch eine extreme Abstimmung der Software- und Firmware-Parameter auf eine bestimmte Anwendung.

Diagramm 1 veranschaulicht, wie diese riskanten Aktionen IT-Organisationen angreifbar machen. Wenn man erst einmal am Rande der Herde steht, ist es leicht, von den lauernden Krokodilen erwischt zu werden.


Diagramm 1: Riskante Handlungen, die Organisationen von der Herde abheben

Leider ist es keine Garantie für das Überleben, nur in der Mitte der Herde zu stehen - Standardkonfigurationen und -software zu verwenden, auf dem neuesten Stand zu bleiben und die Leistungstoleranzen einzuhalten. Die Verringerung der Zahl der hungrigen Krokodile ist der wahre Schlüssel zum Überleben.

Die schlimmsten IT-Vorfälle, die wir aus unserer Sicht als Berater erleben, sind auf nicht diagnostizierte Probleme und schlecht durchgeführte Änderungen zurückzuführen. Wenn man nicht diagnostizierte Probleme auf die richtige Art und Weise zusammenbringt, kann das Wunder bewirken - auf eine schlechte Art und Weise kann es zu einem katastrophalen Ausfall führen.

Ein Beispiel: Ein weltweit tätiges Fortune-500-Unternehmen, das wie alle anderen IT-Systeme nutzt, um Aufträge entgegenzunehmen, die Fertigung zu planen, Lieferungen zu terminieren und Rechnungen für aktuelle Hardware und gängige Software auszustellen, konnte etwa drei Wochen lang nicht wissen, was es herstellen, liefern und in Rechnung stellen sollte. Der Vorfall gelangte nicht in die Medien, da er unter PR-Gesichtspunkten gut gehandhabt wurde und das Unternehmen weiterhin floriert. Aber drei Wochen lang waren die Krokodile mitten unter den Gazellen, die in einem unkoordinierten Konzert agierten, um die wichtigsten IT-Systeme zum Absturz zu bringen.

Schädlingsbekämpfung - die Verringerung der Zahl der Krokodile - verringert die Zahl der Gelegenheiten, bei denen sie sich gedankenlos verschwören, um Ihnen zu schaden. Aber wo lauern sie? Sie warten in Ihrem nicht diagnostizierten Rückstau an IT-Problemen darauf, zuzuschlagen.

Je höher die Zahl der nicht diagnostizierten IT-Probleme ist, desto größer ist die Chance, dass eines, zwei oder viele auf interessante Weise zusammenwirken, mit einer unschuldigen Änderung, um Ihr System zum Absturz bringen. Unternehmen, die die Ursachen für IT-Probleme finden, haben rechnerisch eine größere Chance auf IT-Stabilität als Unternehmen mit nicht diagnostizierten Problemen. Probleme, die beides sind lauernd (Sie kennen sie - sie befinden sich irgendwo in einer Warteschlange, in einer Masse von unkontrollierten Änderungen oder verstecken sich in schlechter Haushaltsführung) und latent (die sich im Moment auf nichts auswirken) führen schließlich zu unvorhergesehenen Schäden.

Fallstudie. Probleme können zufällig zusammentreffen und zu längeren IT-Ausfällen führen. Nachdem Unternehmen A einen Konkurrenten aufgekauft hatte, mussten die Produktlinien integriert werden. In Zusammenarbeit mit den Zulieferern spezifizierte Unternehmen A die benötigte Hardware und Software, und es wurde ein Projektplan zur Umsetzung der Änderungen erstellt. Zu diesem Zeitpunkt war nicht bekannt, dass das aktuelle Produktionssystem vier Fehler aufwies, die keine Probleme verursachten und daher von den Supportmitarbeitern nicht beachtet wurden. Dazu gehörten:

  • Eine langsame Datenbank-Warteschlangenverarbeitung (die seit sechs Monaten besteht)
  • Langsame logische Ein-/Ausgabe auf ein gemeinsam genutztes Datenspeichergerät auf anderen Systemen, die nicht offensichtlich mit diesem System zusammenhängen (vor einigen Wochen bei einem anderen Teil der Infrastruktur protokolliert)
  • Ein Firmware-Upgrade für die Datenspeicherverbindung, das nicht korrekt angewendet wurde (vor einigen Wochen durchgeführt)
  • Datenbank-Überwachungstools, die gelegentlich die Aufzeichnung stoppten (seit einem Jahr im Einsatz)

Diese Probleme waren protokolliert worden und warteten auf Maßnahmen seitens des Lieferanten oder des Personals.

Als das Software-Upgrade und die erforderliche Hardware fertiggestellt waren, lief alles perfekt. Das System nahm die Produktion wieder auf, aber niemand überprüfte den erwarteten Leistungs-Overhead. Dies war ein sehr großes Krokodil.

Diagramm 3

Die erhöhte Belastung des Systems erfolgte reibungslos, eine Fabrik nach der anderen, um sicherzustellen, dass jeder Schritt kontrolliert wurde. Doch zwei Wochen nach Beginn dieses Prozesses wurde ein Kipppunkt erreicht wurde und das System von einem freien Fluss zu Turbulenzen überging - von 20 Stunden für die Bearbeitung eines Tages auf 60 Stunden pro Tag. Die Folgen waren schnell und schwerwiegend. Die Unternehmensleiter begannen zu schreien, dass das Unternehmen im Sterben liege. Sie trennten die Fabriken von den Serienaufträgen und verlegten die Produktionsläufe von täglich auf einmal pro Woche. Einige Depots mussten aus der Erfahrung heraus erfinden, was die Kunden wahrscheinlich bestellen würden, und nur der heldenhafte Einsatz einer großen Zahl von Mitarbeitern hielt das Unternehmen ohne seine IT-Systeme am Laufen.

Die Rückkehr zur vorherigen Konfiguration war nur möglich, wenn die Rechnungen von zwei Wochen geopfert wurden. Es wurde beschlossen, mit der neuen Konfiguration fortzufahren. Während dieses Prozesses wurde die latent lauernde Krokodileentdeckt wurden. Nicht alle Krokodile waren sofort bösartig - das Datenbanküberwachungsprogramm hatte zwei Wochen zuvor einfach aufgehört, und so wurde die Problemlösung durch das Fehlen dieser Informationen verlängert. Die latent vorhandenen Krokodile hatten nur darauf gewartet, unbeobachtet in einem einzigen verhängnisvollen Ereignis zusammenzukommen.

Wie man überlebt

Natürlich kann man aus Fehlern lernen. In der Mitte der IT-Menge zu bleiben, ist eine strategische IT-Entscheidung, die man treffen sollte. Aber die Wahrscheinlichkeit, dass sich nicht diagnostizierte Fehler gegen Sie verschwören, wird selten mit genügend Nachdruck angegangen. Wie viele nicht diagnostizierte Fälle befinden sich in Ihrem IT-Support-Backlog? Wenn Sie diese schnell und effektiv abbauen und wenn Sie Pläne haben, um die Zwischenlösungen und die Korrekturmaßnahmen für die wirklich schwer zu lösenden Fälle zu handhaben, ist alles in Ordnung.

Die meisten Support-Organisationen sind mit einer großen Anzahl von Problemen im Rückstand oder schließen routinemäßig Fälle ab, ohne die Ursache zu finden - und verbauen so ihre Zukunft mit Krokodilen.

Bei unseren Aufträgen mit Kunden, die anfangs einen großen Rückstand haben, führen wir gemeinsam mit ihnen eine Analyse des Ist-Zustands durch, berechnen die zu erwartenden Einsparungen in Form von Zeit und Geld, identifizieren Hebelpunkte und führen eine strukturierte und gut geführte Implementierung von qualitativ hochwertigen Prozessen zur Problemlösung durch. Auf diese Weise entsteht eine bessere Support-Organisation mit effektiveren Arbeitsabläufen und hochmotivierten Technikern. Darüber hinaus gibt es weniger lauernde Krokodile, die nur darauf warten, zuzuschlagen.

Blog Bild 1
Wie Cybersicherheit das Gesicht des Incident Management verändert
Blog Bild 1
Major Incident Management - Vorbereitet sein, wenn eine Veränderung furchtbar schief läuft
Blog Bild 1
Major Incident Management:
Warten Sie nicht mit der Planung Ihrer Reaktion auf Major Incidents
Blog Bild 1
Aufstellung eines erstklassigen IT Incident Management Teams

Wir sind Experten in:

Kontaktieren Sie uns

für Anfragen, Details oder ein Angebot!