Lauernde latente Krokodile
Was hält eine Gazelle nachts wach? Vielleicht ist es der Gedanke an die latent lauernden Krokodile, die in den Flüssen und Wasserlöchern darauf warten, ohne Vorwarnung zuzuschlagen. Was wäre, wenn Ihr Leben als Gazelle nicht darin bestünde, nur einmal am Tag ein Wasserloch zu besuchen oder einen Fluss nur während einer langen Wanderung zu überqueren? Wie wäre es, wenn Sie rund um die Uhr in der Mitte eines krokodilverseuchten Flusses laufen müssten? Das würde Sie sicherlich wach halten, aber nicht bequem sein, und Sie könnten nur für sehr kurze Zeiträume unruhig schlafen.
Wenn das Leben im Fluss Ihr Leben ist, dann liegt es in Ihrem Interesse als Gazelle, die Zahl der Krokodile so gering wie möglich zu halten und sich nicht der Gefahr auszusetzen, erwischt zu werden, indem Sie sich am Rande der Herde aufhalten.
Herdeninstinkt
In der Mitte der Herde zu sein, ist wichtig für das Überleben. Wir erkennen die Auswirkungen dieses Überlebensinstinkts, wenn ein Unternehmen ein neues Betriebssystem herausbringt. Die Early Adopters werden es laden und damit spielen, aber nur wenige werden es sofort als zentrales Geschäftswerkzeug nutzen. Die schlauen Gazellen warten, bis das Wasser erst einmal getestet worden ist. Kluge Gazellen wissen auch, dass sie mithalten müssen und nicht zu Nachzüglern werden dürfen. Wir kennen Anwendungen, die noch immer in der geschäftskritischen Produktion eingesetzt werden und für die der Hersteller vor vielen Jahren den Support eingestellt hat.
Wie kommt es, dass Menschen zufällig an den Rand der Herde geraten?
Vorantreiben ohne klares Risikomanagement:
- Laden von neu freigegebenem und ungetestetem Code auf Produktionsanlagen
- Installation und Inbetriebnahme von ungeprüfter, gerade freigegebener Hardware in einer Produktionsumgebung
- Laden der Produktionsarbeitslast auf nicht getestete Konfigurationen
- Notwechselkontrollen bei der Fehlersuche im Schrotflintenstil
Rückstand durch Nichtänderung der derzeitigen Systeme:
- Verwendung von Kerngeschäftssoftware, die nicht mehr unterstützt wird
- Verwendung von Hardware in der Produktion, die nicht unterstützt wird
Exotische Lösungen konfigurieren:
- Systemintegration von Hardware und Software, um das System zu einem einzigartigen System zu machen
- Änderung des Kerncodes, um das System einzigartig zu machen
Konfigurieren von exotischen Lasten oder Profilen:
- Überlastung des Systems über seine Möglichkeiten hinaus
- Extreme Abstimmung der Software- und Firmware-Parameter für eine bestimmte Anwendung
- Erreichen eines Sättigungspunktes, an dem das System von einer linearen Strömung in eine Turbulenz übergeht
Diagramm 1
Sobald du dich am Rande der Herde befindest, kannst du leichter von den lauernden latenten Krokodilen erwischt werden.
Schädlingsbekämpfung
Als ein Computertechniker im Finanzamt von Alaska bei routinemäßigen Wartungsarbeiten eine Festplatte neu formatierte, geschah ein kleines Wunder der bösen Art. Der Techniker löschte versehentlich die Bewerberdaten für ein ölfinanziertes Konto - eine der größten Vergünstigungen für die Einwohner Alaskas - und formatierte versehentlich auch die Sicherungsfestplatte neu.
Es bestand noch Hoffnung, bis die Abteilung entdeckte, dass ihre dritte Verteidigungslinie, die Sicherungsbänder, unlesbar waren. Hätten die Sicherungsbänder funktioniert, gäbe es keine Geschichte - in diesem Fall wird nicht erwähnt, ob es bekannte und ungelöste Probleme mit dem Sicherungssystem gab - aber haben Sie überprüft, ob Sie Ihre Daten wiederherstellen können? Dieses Versagen kostete sie $200.000 an zusätzlichen Kosten und einen unbekannten Rufschaden. Wartet da ein latentes Krokodil auf Sie?
Nur in der Mitte der Herde zu sein - die gleichen Dinge zu tun, die andere Unternehmen tun, Standardkonfigurationen und Standardsoftware zu verwenden, sie auf dem neuesten Stand zu halten und innerhalb der Leistungstoleranzen zu halten - ist noch keine Garantie für das Überleben.
Die schlimmsten IT-Vorfälle, die wir als KT-Berater erleben, sind eine Kombination aus einer Reihe latenter, sichtbarer und nicht diagnostizierter Probleme und schlecht durchgeführter Änderungen, die sich zu einem Wunder verschworen haben. Oft werden Wunder als erstaunliche oder wunderbare Ereignisse angesehen. Ich vermute, dass das Zusammentreffen nicht diagnostizierter Probleme in einer Weise, die zu einem katastrophalen Ausfall führt, auch ein Wunder sein kann, nur auf eine schlechte Art und Weise.
Nehmen wir das Beispiel eines globalen Fortune-500-Unternehmens, das IT-Systeme wie alle anderen nutzt: um Aufträge entgegenzunehmen, die Fertigung zu planen, Lieferungen zu terminieren und Rechnungen auf aktueller Hardware und sehr beliebter Software auszustellen. Die IT-Abteilung war etwa drei Wochen lang nicht in der Lage zu wissen, was hergestellt, geliefert und in Rechnung gestellt werden sollte. Der Vorfall gelangte nicht in die Medien, da er gut gehandhabt wurde und das Unternehmen weiterhin floriert. In diesen drei Wochen waren jedoch die Krokodile mitten unter den Gazellen und hatten in einem unkoordinierten Konzert gehandelt, um die IT-Systeme des Kerngeschäfts zum Absturz zu bringen.
Können wir vorhersagen, wie wahrscheinlich es ist, dass die latent lauernden Krokodile Ihnen das Geschäft wegnehmen? Wenn Sie eine Gazelle wären, die in der Mitte des Flusses spazieren geht und von anderen Gazellen umgeben ist, von denen einige vorne, einige hinten, einige in der Nähe des linken und einige in der Nähe des rechten Ufers des Flusses leben, würden Sie es vorziehen, einen Fluss mit vielen Krokodilen hinaufzugehen oder mit nur wenigen?
Schädlingsbekämpfung - die Anzahl der Krokodile zu reduzieren, würde lediglich die Anzahl der Gelegenheiten verringern, bei denen sie sich gedankenlos verschwören, um Ihnen zu schaden. Wo finden wir diese Krokodile... in Ihrem nicht diagnostizierten Rückstau an IT-Problemen.
Je höher die Zahl der nicht diagnostizierten IT-Probleme ist, desto größer ist die Wahrscheinlichkeit, dass eines, zwei oder mehrere auf interessante Weise mit einer unschuldigen Änderung zusammenwirken und Ihr System zum Absturz bringen. Unternehmen, in denen die Ursachen für IT-Probleme in der Regel gefunden werden, haben mathematisch gesehen bessere Überlebenschancen als solche mit einer großen Anzahl nicht diagnostizierter Probleme: Probleme, die sowohl lauern (Sie wissen davon - sie befinden sich irgendwo in einer Warteschlange, oder sie sind in einer Masse unkontrollierter Änderungen oder verstecken sich in schlechter Haushaltsführung) als auch latent (sie beeinträchtigen die Produktion im Moment nicht).
Lassen Sie mich konkret auf die Arten von Problemen eingehen, die zufällig zusammenkommen und zu längeren IT-Ausfällen führen können.
Nehmen wir an, Sie ändern die Anzahl der Produkte, die Ihre Infrastruktur verarbeiten soll, weil Sie ein anderes Unternehmen gekauft haben und dessen Produktlinien integrieren müssen.
Sie arbeiteten mit den Lieferanten zusammen, um die benötigte Hard- und Software zu spezifizieren, und es wurde ein Projektplan zur Umsetzung der Änderungen erstellt.
Was Sie nicht wussten, war, dass tief in Ihrem Rückstand an nicht diagnostizierten Problemen vier Fehler im Produktionssystem vergraben waren, von denen keiner zu Produktionsproblemen führte und die daher den Supportmitarbeitern nicht ins Auge fielen:
- Eine langsame Verarbeitung von Aufträgen in der Warteschlange der Datenbank in den letzten sechs Monaten
- Langsame logische Ein-/Ausgabe auf Ihr gemeinsames Datenspeichergerät auf anderen Systemen, die nicht offensichtlich mit diesem System zusammenhängen - ein Problem, das vor einigen Wochen bei einem anderen Teil der Infrastrukturorganisation aufgezeichnet wurde
- Ein Firmware-Upgrade für die Datenspeicherverbindung, das vor einigen Wochen nicht korrekt angewendet wurde
- Datenbank-Überwachungstools, die im vergangenen Jahr gelegentlich die Aufzeichnung eingestellt hatten
Diese Probleme wurden protokolliert und warteten darauf, dass entweder der Lieferant oder Ihr Personal etwas unternimmt.
Sie fügen dann das Software-Upgrade und die erforderliche Hardware hinzu, um die Leistung des Systems zu verbessern und einen gewissen Verarbeitungsaufwand zu erzielen. Diese Änderung funktioniert (aus Sicht des Änderungsmanagements) perfekt; das System nimmt die Produktion wieder auf, aber niemand überprüft den Leistungsmehrwert, der durch die Anwendung der Änderung erwartet wurde. Dies ist ein sehr großes Krokodil.
Dann fügen Sie dem System die erhöhte Last fabrikweise hinzu (nur um sicherzustellen, dass jeder Schritt gut ist). Etwa zwei Wochen nach Beginn dieses Prozesses wird ein "Kipppunkt" erreicht, und das System kippt vom "freien Fluss" in Turbulenzen - von 20 Stunden für die Verarbeitung der Arbeit eines Tages auf 60 Stunden pro Tag. Die Betriebsleiter beginnen zu schreien, dass das Unternehmen im Sterben liegt. Sie müssen viele Fabriken von den Batch-Aufträgen abtrennen und die Produktionsläufe von täglich auf einmal pro Woche umplanen. Einige Depots müssen aus der Erfahrung heraus erfinden, was die Kunden aufgrund früherer Bestellungen wahrscheinlich bestellen wollen, und das Geschäft wird nur durch heroische Aktionen einer großen Zahl von Mitarbeitern aufrechterhalten, die das Geschäft ohne Ihre Systeme betreiben.
Eine Rückkehr zur vorherigen Konfiguration ist nur möglich, wenn das Unternehmen bereit ist, die Rechnungen von zwei Wochen zu verlieren. Es wird beschlossen, mit der neuen Konfiguration weiterzumachen, und während dieses Prozesses werden die latent lauernden Krokodile entdeckt.
Nicht alle Krokodile waren sofort bösartig - das Datenbanküberwachungsprogramm hatte sich zwei Wochen zuvor einfach abgemeldet, und so wurde die Problemlösung durch das Fehlen dieser Informationen verlängert.
Da draußen lauern latente Krokodile, die darauf warten, unbeobachtet zu einem einzigen Ereignis zusammenzukommen, das katastrophale Folgen haben kann.
Wie man überlebt
Es ist klar, dass man aus den Fehlern anderer Leute lernen kann. In der Mitte der IT-Menge zu bleiben, ist eine strategische IT-Entscheidung, die Sie und Ihre Kunden treffen müssen: entweder sicher bleiben oder ein "interessantes" Leben führen.
Aber wie lässt sich die Wahrscheinlichkeit verringern, dass sich die nicht diagnostizierten Fehler gegen Sie verschwören? Wie viele nicht diagnostizierte Fälle befinden sich in Ihrem IT-Support-Desk-Backlog? Wenn Sie diese schnell und effektiv abbauen und wenn Sie Pläne für Zwischenlösungen und Korrekturmaßnahmen für die wirklich schwer zu lösenden Fälle haben, ist alles in Ordnung.
Wenn Sie eine große Anzahl von Problemen in Ihrem Rückstand haben oder routinemäßig ihre ältesten Fälle abgeschlossen haben, nur um den Rückstand in einem überschaubaren Rahmen zu halten, dann ist Ihre Zukunft mit Krokodilen besetzt.
Bei unseren Aufträgen mit Kunden, die anfänglich einen großen Rückstand haben, arbeiten wir mit ihnen zusammen, um eine Analyse des Ist-Zustands durchzuführen, die erwarteten Einsparungen in Form von Zeit und Geld zu berechnen, Hebelpunkte zu identifizieren und eine strukturierte und gut geführte Implementierung von qualitativ hochwertigen Fallbearbeitungsprozessen abzuschließen. Sie verfügen nicht nur über eine bessere Support-Organisation mit effektiveren Arbeitsabläufen und hoch motivierten Technikern, sondern können auch nachts ruhiger schlafen, weil sie wissen, dass es weniger lauernde Krokodile gibt, die ohne Vorwarnung zuschlagen.
Über Kepner-Tregoe
Kepner-Tregoe ist führend auf dem Gebiet der Problemlösung. Seit mehr als sechs Jahrzehnten hat Kepner-Tregoe Tausenden von Unternehmen weltweit geholfen, Millionen von Problemen durch eine effektivere Ursachenanalyse und Entscheidungsfindung zu lösen. Kepner-Tregoe arbeitet mit Unternehmen zusammen, um Kosten erheblich zu senken und die betriebliche Leistung zu verbessern durch
Problemlösungsschulung, Technologie und Beratungsdienste.