Globale Präsenz, lokale Betreuung

Kepner-Tregoe bietet weltweit Schulungen zu Problemlösung und Entscheidungsfindung an – online oder vor Ort und in mehreren Sprachen. Sollte Ihr Land nicht aufgeführt sein, kontaktieren Sie uns bitte über das Kontaktformular unserer Zentrale. Unser Kundenservice-Team hilft Ihnen gerne weiter und vermittelt Ihnen den passenden Ansprechpartner in Ihrer Region.

crocodile lurking in the water

Die lauernden latenten Krokodile des IT-Supports

Was lässt eine Gazelle nachts nicht schlafen? Es könnte der Gedanke an die „lauernden latenten Krokodile“ sein, die in den Flüssen und Wasserlöchern hausen und darauf warten, ohne Vorwarnung zuzuschlagen. Was wäre, wenn Ihr Leben als Gazelle nicht daraus bestünde, das Wasserloch nur einmal am Tag aufzusuchen oder einen Fluss nur während einer langen Wanderung zu überqueren? Was wäre, wenn Sie rund um die Uhr mitten durch den von Krokodilen verseuchten Fluss laufen müssten? Das würde Sie sicher wachsam halten, aber nicht behaglich, und Sie könnten nur unruhig für sehr kurze Zeiträume schlafen.

Wenn das Leben im Fluss Ihr Alltag ist, dann läge es in Ihrem Interesse als Gazelle, die Zahl der Krokodile so gering wie möglich zu halten und sich nicht der Gefahr auszusetzen, am Rande der Herde erwischt zu werden.

Herdeninstinkt

In der Mitte der Herde zu sein, ist überlebenswichtig. Wir erkennen die Wirkung dieses Überlebensinstinkts, wenn ein Unternehmen ein neues Betriebssystem veröffentlicht. Die Early Adopter werden es laden und damit herumspielen, aber nur wenige werden es sofort als zentrales Geschäftswerkzeug einsetzen. Die klugen Gazellen warten, bis das Wasser erst einmal getestet wurde. Kluge Gazellen wissen auch, dass sie Schritt halten müssen und nicht zu Nachzüglern werden dürfen. Wir kennen Anwendungen, die immer noch in der geschäftskritischen Produktion laufen, obwohl der Anbieter den Support bereits vor vielen Jahren eingestellt hat.

Wie finden sich Menschen versehentlich am Rande der Herde wieder?

Vorpreschen ohne klares Risikomanagement:

  • Laden von neu veröffentlichter und ungetesteter Software auf Produktionsanlagen
  • Installation und Inbetriebnahme von ungetesteter, gerade veröffentlichter Hardware in einer Produktionsumgebung
  • Laden von Produktionslast auf ungetestete Konfigurationen
  • Notfall-Änderungskontrollen während einer Fehlersuche nach dem „Schrotflinten-Prinzip“

Ins Hintertreffen geraten, weil bestehende Systeme nicht geändert werden:

  • Verwendung von Kern-Unternehmenssoftware, die nicht mehr unterstützt wird
  • Verwendung von Hardware in der Produktion, die nicht mehr unterstützt wird

Konfiguration exotischer Lösungen:

  • Systemintegration von Hard- und Software, die das System zu einem Unikat macht
  • Änderung des Kerncodes, um das System einzigartig zu machen

Konfiguration exotischer Lasten oder Profile:

  • Überlastung des Systems über seine Kapazitäten hinaus
  • Extremes Tuning von Software- und Firmware-Parametern für eine bestimmte Anwendung
  • Erreichen eines Sättigungspunkts, an dem das System von einer linearen Strömung in Turbulenzen übergeht

Diagramm 1

Diagramm 1: Lauernde latente Krokodile

Sobald Sie sich am Rande der Herde befinden, können Sie leichter von den lauernden latenten Krokodilen erbeutet werden.

Schädlingsbekämpfung

Als ein Computertechniker beim Alaska Department of Revenue im Rahmen routinemäßiger Wartungsarbeiten ein Festplattenlaufwerk neu formatierte, geschah ein kleines Wunder der schlechten Art. Der Techniker löschte versehentlich die Antragsdaten für ein ölfinanziertes Konto – eine der größten Vergünstigungen für die Einwohner Alaskas – und formatierte irrtümlich auch das Backup-Laufwerk neu.

Es gab noch Hoffnung, bis die Abteilung feststellte, dass ihre dritte Verteidigungslinie, die Backup-Bänder, unlesbar war. Hätten die Backup-Bänder funktioniert, gäbe es keine Geschichte – in diesem Fall wird nicht erwähnt, ob sie bereits bekannte und ungelöste Probleme mit dem Backup-System hatten – aber haben Sie geprüft, ob Sie Ihre Daten wiederherstellen können? Dieser Ausfall kostete sie 200.000 $ an zusätzlichen Kosten und einen unbekannten Reputationsschaden. Wartet auch auf Sie ein latentes lauerndes Krokodil?

Nur in der Mitte der Herde zu sein – also die gleichen Dinge zu tun wie andere Unternehmen, Standardkonfigurationen und Standardsoftware zu verwenden, diese auf dem neuesten Stand und innerhalb der Leistungstoleranzen zu halten – ist noch keine Garantie für das Überleben.

Die schlimmsten IT-Vorfälle, die wir als Berater von Kepner-Tregoe erleben, sind eine Kombination aus einer Reihe von latenten, sichtbaren und undiagnostizierten Problemen sowie mangelhaft durchgeführten Änderungen, die sich zu einem „Wunder“ verschworen haben. Oft werden Wunder als erstaunliche oder wunderbare Ereignisse betrachtet. Ich vermute, dass das Zusammenführen undiagnostizierter Probleme in einer Weise, die einen katastrophalen Ausfall verursacht, ebenfalls wunderbar sein kann, nur eben auf eine schlechte Art.

Nehmen wir das Beispiel eines globalen Fortune-500-Unternehmens, das IT-Systeme wie alle anderen nutzt: um Aufträge entgegenzunehmen, die Fertigung zu planen, Lieferungen zu terminieren und Rechnungen auf aktueller Hardware und sehr populärer Software auszustellen. Die IT-Abteilung verlor für etwa drei Wochen die Fähigkeit zu wissen, was gefertigt, versandt und in Rechnung gestellt werden sollte. Der Vorfall gelangte nicht in die Medien, da er gut gehandhabt wurde und das Unternehmen weiterhin floriert. Während dieser drei Wochen befanden sich jedoch die „Krokodile“ mitten unter den Gazellen und hatten in unkoordiniertem Zusammenspiel gehandelt, um die IT-Systeme des Kerngeschäfts lahmzulegen.

Diagramm 2: Lauernde latente Krokodile

Können wir die Wahrscheinlichkeit vorhersagen, mit der die latenten lauernden Krokodile Ihr Unternehmen ausschalten? Wenn Sie eine Gazelle wären, die mitten im Fluss läuft, umgeben von anderen Gazellen, einige vorne, einige hinterherhinkend, einige am linken Flussufer und einige am rechten – würden Sie lieber einen Fluss mit vielen Krokodilen oder mit sehr wenigen hinaufwandern?

Eine Schädlingsbekämpfung zur Reduzierung der Anzahl der Krokodile würde schlichtweg die Gelegenheiten verringern, bei denen sie sich gedankenlos verschwören können, um Ihnen zu schaden. Wo finden wir diese Krokodile? … in Ihrem undiagnostizierten Rückstau an IT-Problemen.

Je höher die Anzahl der undiagnostizierten IT-Probleme ist, desto größer ist die Chance, dass eines, zwei oder viele auf interessante Weise mit einer harmlosen Änderung interagieren und Ihr System zum Einsturz bringen. Unternehmen, in denen die Ursachen für IT-Probleme im Allgemeinen gefunden werden, haben mathematisch gesehen eine bessere Überlebenschance für ihre IT als solche mit einer großen Anzahl undiagnostizierter Probleme: Probleme, die sowohl lauernd (man weiß von ihnen – sie befinden sich in einer Warteschlange, in einer Masse unkontrollierter Änderungen oder verstecken sich in mangelhafter Systempflege) als auch latent (beeinträchtigen die Produktion im Moment nicht) sind.

Lassen Sie mich konkret werden, welche Arten von Problemen zufällig zusammenkommen können, um längere IT-Ausfälle zu verursachen.

Nehmen wir an, Sie nehmen eine Änderung an der Anzahl der Produkte vor, die Ihre Infrastruktur verarbeiten soll, weil Sie ein anderes Unternehmen gekauft haben und deren Produktlinien integrieren müssen.

Sie haben mit den Lieferanten zusammengearbeitet, um die erforderliche Hardware und Software zu spezifizieren, und es wurde ein Projektplan zur Umsetzung der Änderung erstellt. Das Change Management war mit an Bord, alles war bestens.

Was Sie nicht wussten: Tief in Ihrem Rückstau an undiagnostizierten Problemen waren vier Fehler im Produktionssystem vergraben, von denen keiner Produktionsprobleme verursachte und die daher dem Support-Personal nicht präsent waren:

  • Ein langsamer Datenbank-Warteschlangen-Verarbeitungsjob seit sechs Monaten
  • Langsamer logischer Input/Output auf Ihrem gemeinsam genutzten Datenspeichergerät bei anderen Systemen, die offensichtlich nicht mit diesem zusammenhängen – ein Problem, das vor einigen Wochen bei einem anderen Teil der Infrastrukturorganisation gemeldet wurde
  • Ein Firmware-Upgrade für den Datenspeicher-Interconnect, das vor einigen Wochen nicht korrekt angewendet wurde
  • Datenbank-Monitoring-Tools, die im vergangenen Jahr gelegentlich die Aufzeichnung eingestellt hatten

Diese Probleme waren protokolliert worden und warteten auf eine Reaktion des Lieferanten oder Ihrer Mitarbeiter.

Sie fügen dann das Software-Upgrade und die erforderliche Hardware hinzu, um die Leistung des Systems zu verbessern und Ihnen einen gewissen Verarbeitungsspielraum zu verschaffen. Diese Änderung funktioniert perfekt (aus Sicht des Change Managements); das System nimmt die Produktion wieder auf, aber niemand prüft den Leistungsspielraum, den die Anwendung der Änderung eigentlich erzeugen sollte. Dies ist ein sehr großes Krokodil.

Diagramm 3: Lauernde latente Krokodile

Sie fügen dann die erhöhte Last schrittweise Fabrik für Fabrik dem System hinzu (um sicherzustellen, dass jeder Schritt in Ordnung ist). Etwa zwei Wochen nach Beginn dieses Prozesses wird ein „Kipppunkt“ erreicht, und das System schlägt von „freiem Fluss“ in Turbulenzen um – die Verarbeitung der Arbeit eines Tages dauert statt 20 Stunden plötzlich 60 Stunden pro Tag. Die Geschäftsführer beginnen zu schreien, dass das Geschäft stirbt. Sie müssen viele Fabriken von den Batch-Jobs trennen und die Produktionsläufe von täglich auf einmal pro Woche umstellen. Einige Depots müssen aus Erfahrung improvisieren, was Kunden wahrscheinlich bestellen wollen, basierend auf früheren Aufträgen, und der Geschäftsbetrieb wird nur durch heroische Taten einer riesigen Anzahl von Mitarbeitern aufrechterhalten, die das Geschäft ohne Ihre Systeme führen.

Eine Rückkehr zur vorherigen Konfiguration ist nur möglich, wenn das Unternehmen bereit ist, die Rechnungen von zwei Wochen zu verlieren. Es wird die Entscheidung getroffen, mit der neuen Konfiguration fortzufahren, und während dieses Prozesses werden die latenten lauernden Krokodile entdeckt.

Nicht alle Krokodile waren sofort bösartig – das Datenbank-Monitoring-Tool hatte einfach zwei Wochen zuvor aufgehört zu arbeiten, und so wurde der Problemlösungsaufwand durch das Fehlen dieser Informationen verlängert.

Lauernde latente Krokodile sind da draußen und warten unbemerkt darauf, zu einem einzigen Ereignis zusammenzukommen, das das Potenzial hat, katastrophal zu sein.

Wie man überlebt

Es gibt eindeutig Lehren, die man aus den Fehlern anderer ziehen kann. In der Mitte der IT-Masse zu bleiben, ist eine strategische IT-Entscheidung, die Sie und Ihre Kunden treffen müssen: Entweder gehen Sie auf Nummer sicher oder Sie führen ein „interessantes“ Leben.

Aber wie lässt sich die Wahrscheinlichkeit verringern, dass sich undiagnostizierte Fehler gegen Sie verschwören? Wie viele undiagnostizierte Fälle befinden sich im Rückstau Ihres IT-Support-Desks? Wenn Sie diese schnell und effektiv abarbeiten und Pläne für die Zwischenlösungen und Korrekturmaßnahmen für diejenigen haben, die wirklich schwer zu lösen sind, ist alles in Ordnung.

Wenn Sie eine große Anzahl von Problemen in Ihrem Rückstau haben oder routinemäßig die ältesten Fälle geschlossen haben, nur um den Rückstau auf einer überschaubaren Größe zu halten, pflastern Sie Ihre Zukunft mit Krokodilen.

Bei unserer Zusammenarbeit mit Kunden, die anfangs einen großen Rückstau haben, führen wir gemeinsam eine Analyse des Ist-Zustands durch, berechnen die erwarteten Zeit- und Kosteneinsparungen, identifizieren Hebelpunkte und schließen eine strukturierte und gut geführte Implementierung hochwertiger Fallbearbeitungsprozesse ab. Sie verfügen dann nicht nur über eine bessere Support-Organisation mit effektiveren Arbeitsabläufen und hochmotivierten Ingenieuren, sondern schlafen nachts auch ruhiger, weil sie wissen, dass weniger lauernde Krokodile darauf warten, ohne Vorwarnung zuzuschlagen.

Über Kepner-Tregoe

Kepner-Tregoe ist führend in der Problemlösung. Seit über sechs Jahrzehnten hat Kepner-Tregoe Tausenden von Unternehmen weltweit geholfen, Millionen von Problemen durch effektivere Ursachenanalysen und Entscheidungsfindungsfähigkeiten zu lösen. Kepner-Tregoe arbeitet mit Unternehmen zusammen, um Kosten erheblich zu senken und die operative Leistung durch Problemlösungsschulungen, Technologie und Beratungsdienstleistungen zu verbessern.