ITの問題解決。小さな変化が大きな問題を生むとき

日常のちょっとした変化が、ビジネスに大きな影響を与えることがあります。毎週木曜日の午後に発生するシステム障害の謎を考えてみよう。

シチュエーション - ある証券会社のITシステムで、取引に時間がかかり、ある木曜日の午後3時20分に取引システムが完全に停止した。取引システムを再起動すると問題は解決し、全員が仕事に戻ることができましたが、翌週の木曜日の午後にも同じことが起こりました。

その後、数週間にわたって同じような症状が発生しました。この問題は常にシステムの再起動で解決されましたが、特に時間のロスが利益のロスにつながる取引現場では、不満が募っていました。毎週のように発生するこの問題に役員会が注目すると、IT部門のディレクターにこの問題を優先的に扱うよう指示が出された。そして、原因を探るために問題解決チームを結成し、Kepner-TregoeのRCA手法を駆使して取り組みました。

問題の特定 - 問題を解決するには、まず何が問題なのかを明確にしなければならない。そこでチームはまず、「トランザクション・システムが遅い」という一般的な問題から、「トランザクションがタイムアウトする」という具体的な問題に分離・明確化することから始めた。この問題提起をもとに、チームは、興味深いけれども無関係な情報を調べて時間を浪費するのではなく、真の原因を見つけるために必要な情報を重点的に探すことにした。

問題点の説明 - 誤った原因を排除し、可能性のある原因を示唆するためには、明確な問題提起が必要だが、それだけでは不十分である。そこでチームは、「何が、いつ、どこで、どの程度、問題が観察されたか、されなかったか」という情報の収集に着手した。

  • クエリ、レポート、トレードなど、システム上で実行されるすべてのトランザクションで問題が発生した
  • 問題は特にタイムアウトで、エラーメッセージは発生しなかった
  • 問題はすべてのスタッフに影響し、特定のユーザーグループや地理的な場所に限定されるものではありませんでした。
  • 問題が最初に発生したのは9月6日(木)午後3時20分で、それ以前は気づかれていなかった。
  • この問題は、木曜日の午後3時から午後3時30分の間だけ発生しました。例外として、10月4日(木)には問題が報告されていません。
  • 問題は1日に1回、1週間に1回しか起きない

最初に時間をかけて問題を説明することで、チームは近因を素早く見つけ、次にシステム的な原因を見つけることができたのです
考えられる原因の特定 - 彼らが探していた原因は、システム全体に影響を及ぼすものでしたが、木曜日の午後3時から午後3時30分までの間だけでした。通常の勤務時間内に発生することが予測できたため、原因はシステムと人間の相互作用によるものである可能性が高い。そこで、この問題に着目した。

しかし、チームリーダーに話を聞いてみると、あることがわかった。請求書作成チームに、娘をバレエ教室に送るために毎週木曜日の午後に早退するスタッフがいた。彼女がどのようにシステムを操作しているのか、問題解決チームのメンバーが聞き取りを行った。その結果、彼女は毎日、帰る間際に翌朝に必要なレポートを作成していることが分かった。通常、このレポートは午後5時半に作成される。この時間帯は、証券取引所が閉まっていて、他にシステムを使う人はほとんどいない。木曜日はいつも通り、退社時にレポートを実行するように設定しましたが、彼女は午後3時15分ごろに退社しました。問題が発生しなかった木曜日は、彼女の娘が修学旅行でバレエに行かなかった日と重なっていました。

レポートがパラメータなしで実行されたため、トランザクションデータベース全体が検索され、レポートは他のすべてのトランザクションよりも高い優先度を持ち、株式市場が閉じているときには問題ではありませんでした。しかし、午後3時15分、すでにビジー状態だったシステムの動作が極端に遅くなり、最終的にタイムアウトして、証券取引所への接続が切断されたのです。

根本的な原因を取り除く - すぐに解決できたのは、そのスタッフに株式市場が開いている時間帯にレポートを実行しないよう指示することでした。彼女は、木曜日の終業時にレポートを実行する方法を他のスタッフに教え、問題の近因を取り除き、今後の発生を防ぐことができました。さらにチームは、システム的な原因である、パラメータなしでレポートを実行し、必要以上にトランザクションシステムの容量を消費していたことに対処した。

システム的な原因を取り除くため、開発チームは、レポートには特定のパラメータが必要で、システムのパフォーマンスに影響を与える可能性のあるレポートは、証券取引所の取引時間中に実行できないようにシステムを変更したのです。今では、木曜日でもITシステムの中で株式売買が行われ、街の向こうではピンクのタイツを履いた小さな女の子たちがバレエを習っています。謎は解けた。

ブログ画像1
危機管理における問題解決
ブログ画像1
経営者育成プログラムに問題解決を盛り込んでいますか?
ブログ画像1
クラウドサービスが問題管理を難しくしている理由、そしておそらく少し簡単にもしている理由
ブログ画像1
構造化思考。問題解決に一貫性を持たせる

私たちは以下の専門家です:

お問い合わせ

お問い合わせ、ご意見、詳細確認はこちらから