IT-Problemlösung: Wenn eine kleine Änderung zu großen Problemen führt

Manchmal kann die kleinste Änderung in einer täglichen Routine tiefgreifende Auswirkungen auf ein Unternehmen haben. Denken Sie nur an den mysteriösen wöchentlichen Systemausfall am Donnerstagnachmittag.

Situation - Bei den IT-Systemen eines Börsenmaklers kam es an einem Donnerstagnachmittag um 15.20 Uhr zu langsamen Transaktionszeiten und schließlich zu einem kompletten Ausfall des Transaktionssystems. Durch einen Neustart des Transaktionssystems wurde das Problem behoben und alle konnten wieder arbeiten ... bis sich am folgenden Donnerstagnachmittag dasselbe wiederholte.

In den folgenden Wochen traten die gleichen Symptome auf. Das Problem konnte immer durch einen Neustart des Systems behoben werden, aber die Frustration wuchs, insbesondere auf dem Parkett, wo Zeitverluste zu Gewinneinbußen führen können. Als der Vorstand auf dieses wöchentliche Ereignis aufmerksam wurde, wies er den IT-Direktor an, diesem Problem Priorität einzuräumen. Er bildete ein Problemlösungsteam, um die Ursache zu finden, und es nutzte die Kepner-Tregoe-RCA-Methode, um seine Bemühungen anzuleiten.

Identifizieren Sie das Problem - In der Erkenntnis, dass man ein Problem nur lösen kann, wenn man es klar benennt, begann das Team damit, das Problem von der allgemeinen Aussage "Das Transaktionssystem ist langsam" auf die spezifischere Aussage "Die Transaktionen werden zeitlich verzögert" herunterzubrechen und zu klären. Das Team nutzte diese Problembeschreibung, um sich auf die Suche nach den Informationen zu konzentrieren, die benötigt werden, um die wahre Ursache zu finden, anstatt Zeit mit der Untersuchung interessanter, aber irrelevanter Informationen zu verschwenden.

Beschreiben Sie das Problem - Eine klare Problembeschreibung ist notwendig, aber nicht ausreichend, um falsche Ursachen auszuschließen und wahrscheinliche Ursachen vorzuschlagen. Also begann das Team, Informationen darüber zu sammeln, was, wann, wo und in welchem Umfang das Problem beobachtet wurde - und was nicht.

  • Das Problem trat bei allen Transaktionen auf, die im System ausgeführt wurden - Abfragen, Berichte und Abschlüsse
  • Das Problem waren insbesondere Zeitüberschreitungen - es wurden keine Fehlermeldungen erzeugt.
  • Das Problem betraf alle Mitarbeiter, es war nicht auf eine bestimmte Benutzergruppe oder einen bestimmten geografischen Ort beschränkt.
  • Das Problem trat zum ersten Mal am Donnerstag, den 6. September um 15.20 Uhr auf - es war vorher nicht bemerkt worden
  • Das Problem trat nur donnerstags zwischen 15:00 und 15:30 Uhr auf. Es gab eine Ausnahme - das Problem wurde am Donnerstag, dem 4. Oktober, nicht gemeldet
  • Das Problem trat nur einmal pro Tag und einmal pro Woche auf.

Indem sich das Team die Zeit nahm, das Problem zunächst zu beschreiben, konnte es schnell die unmittelbare Ursache und dann die systemische Ursache finden
Identifizieren Sie mögliche Ursachen - Mit einer soliden Problembeschreibung konnte das Team die Falle vermeiden, alle Änderungen zu berücksichtigen, die sich möglicherweise auf das System auswirken könnten; die gesuchte Ursache betraf das gesamte System, aber nur donnerstags zwischen 15.00 und 15.30 Uhr. Der vorhersehbare Zeitpunkt dieser Abweichung während der normalen Arbeitszeiten ließ darauf schließen, dass die Ursache wahrscheinlich auf eine menschliche Interaktion mit dem System zurückzuführen war. Darauf konzentrierten sie sich.

Die Prüfung der Dienstpläne ergab keine brauchbaren Hinweise, aber ein Gespräch mit den Teamleitern ergab schließlich eine mögliche Verbindung. Es gab eine Mitarbeiterin im Rechnungsstellungsteam, die jeden Donnerstagnachmittag früher ging, um ihre Tochter zum Ballettunterricht zu bringen. Die Mitglieder des Problemlösungsteams befragten sie, um herauszufinden, wie sie mit dem System interagierte. Dabei stellte sich heraus, dass sie jeden Tag kurz vor dem Verlassen des Hauses mit der Ausführung eines Berichts begann, den sie am nächsten Morgen benötigte. Normalerweise wurde dieser Bericht um 17:30 Uhr erstellt, da sie zu dieser Zeit normalerweise die Arbeit verließ. Zu dieser Tageszeit war die Börse geschlossen, und nur wenige andere Personen nutzten das System. An Donnerstagen stellte sie den Bericht wie üblich so ein, dass er ausgeführt wird, wenn sie geht, aber sie ging gegen 15:15 Uhr. Der eine Donnerstag, an dem das Problem nicht auftrat, fiel auf einen Tag, an dem ihre Tochter auf einem Schulausflug war und nicht zum Ballett ging.

Indem sich das Team die Zeit nahm, das Problem zunächst zu beschreiben, konnte es schnell die unmittelbare Ursache und dann die systemische Ursache finden: Der Bericht wurde ohne Parameter ausgeführt, so dass er die gesamte Transaktionsdatenbank durchsuchte und der Bericht eine höhere Priorität als alle anderen Transaktionen hatte - kein Problem, wenn die Börse geschlossen war. Aber um 15.15 Uhr führte dies dazu, dass das ohnehin schon stark ausgelastete System extrem langsam lief und schließlich einen Timeout verursachte, was zum Abbruch der Verbindung zur Börse führte.

Beseitigung der Grundursache - Die schnelle Lösung bestand darin, die Mitarbeiterin anzuweisen, den Bericht nicht während der Börsenöffnungszeiten auszuführen. Sie zeigte einem anderen Mitarbeiter, wie er den Bericht donnerstags am Ende des Tages für sie ausführt, wodurch die unmittelbare Ursache des Problems beseitigt wurde und es in Zukunft nicht mehr auftreten sollte. Das Team kümmerte sich dann um die systemische Ursache: die Ausführung eines Berichts ohne Parameter, der mehr Transaktionssystemkapazität als nötig beanspruchte.

Um die systembedingte Ursache zu beseitigen, nahm ein Entwicklungsteam Änderungen am System vor, um sicherzustellen, dass für Berichte bestimmte Parameter erforderlich sind und Berichte, die die Systemleistung beeinträchtigen könnten, nicht während der Börsenhandelszeiten ausgeführt werden können. Jetzt läuft der Aktienhandel durch das IT-System, sogar donnerstags, während am anderen Ende der Stadt eine Klasse kleiner Mädchen in rosa Strumpfhosen Ballett lernt. Das Rätsel ist gelöst.

Blog Bild 1
Problemlösung im Krisenmanagement
Blog Bild 1
Gehört die Problemlösung zu Ihrem Managemententwicklungsprogramm?
Blog Bild 1
Warum Cloud-Dienste das Problem-Management schwieriger und vielleicht auch ein wenig einfacher machen
Blog Bild 1
Strukturiertes Denken: Konsistenz in das Problem Management bringen

Wir sind Experten in:

Kontaktieren Sie uns

für Anfragen, Details oder ein Angebot!