Lurking Latent Crocodile(潜伏したクロコダイル

Lurking Latent Crocodile(潜伏したクロコダイル

ガゼルが夜眠れないのはなぜだろう?それは、川や水飲み場に潜むクロコダイルが何の前触れもなく襲ってくるのではないかと考えるからかもしれません。もし、ガゼルの生活が、一日に一度だけ水飲み場を訪れたり、長い移動の間だけ川を渡ったりすることではないとしたらどうでしょう?ワニが出没する川の真ん中を24時間365日歩くことだったらどうでしょう?そうすれば、きっとあなたは警戒心を失わず、しかし快適ではなく、ごく短い時間しか落ち着かずに眠ることができないでしょう。

川に住むことが人生であるならば、ワニの数をできるだけ少なくし、群れの端に留まって捕まる可能性に身をさらさないことが、ガゼルとしての利益になるはずだ。

群れの本能

群れの真ん中にいることは、生き延びるために重要なことです。この生存本能の影響は、企業が新しいOSをリリースしたときに現れます。アーリーアダプターはそれをロードして遊びますが、すぐにコアビジネスツールとして使う人はほとんどいません。賢いガゼルは、まず水が試されるまで待つ。賢いガゼルは、後れを取らないように追いつくことも知っている。私たちは、ベンダーが何年も前にサポートを終了したアプリケーションが、いまだにミッションクリティカルな業務で使われていることを知っています。

人はどのようにして偶然、群れの端に身を置くのか?

明確なリスク管理をせずに進めてしまう。

  • リリースされたばかりの未テストのコードを製造装置にロードする
  • 発売されたばかりの未検証のハードウェアの本番環境への導入と試運転
  • 本番のワークロードを未検証の構成でロードする
  • ショットガンスタイルのトラブルシューティング時の緊急変更コントロール

現在のシステムを変えないことで遅れをとる。

  • サポートが終了した基幹業務ソフトの使用
  • サポートされていないハードウェアを本番で使用する

エキゾチックなソリューションを構成する

  • ハードウェアとソフトウェアを統合したシステムで、オンリーワンのシステムを実現する
  • コアコードを変更してシステムを独自化する

エキゾチックロードやプロファイルの設定

  • システムを能力以上に酷使すること
  • アプリケーションに合わせてソフトウェアやファームウェアのパラメータを極端に調整することが可能
  • システムが直線的な流れから乱流に移行する飽和点に達したとき

図1

クロコダイル_ダイアグラム_1

群れの端にいると、潜んでいるクロコダイルに簡単に襲われてしまいます。

害虫駆除

アラスカ州歳入局のコンピュータ技術者が定期メンテナンス作業中にディスクドライブを再フォーマットした際、悪い意味での小さな奇跡が起きてしまった。その技術者は、アラスカ住民の最大の特典の1つである石油資金の口座の申請者情報を誤って削除してしまい、バックアップドライブも誤って再フォーマットしてしまったのだ。

まだ望みはあったが、3つ目の防衛手段であるバックアップテープが読めないことが発覚したのだ。バックアップテープが機能していれば、この話はなかったでしょう。この場合、バックアップシステムに既知の未解決の問題があったかどうかについては言及されていませんが、データを復元できるかどうか確認しましたか?この失敗により、彼らは1TP200,000の追加コストと未知の評判の低下を被りました。あなたを待っているのは、潜在的に潜んでいるワニではありませんか?

他社と同じようなことをして、標準的な構成と標準的なソフトウェアを使い、最新の状態に保ち、パフォーマンスの許容範囲内に収めるという、群れの真ん中にいるだけでは、生き残りの保証にはなりません。

私たちKTコンサルタントが目にする最悪のITインシデントは、潜在的な問題、目に見える問題、診断されていない問題、完了していない変更などが複合的に絡み合い、奇跡を起こしているものです。奇跡とは、しばしば驚くべき、あるいは素晴らしい出来事だと考えられています。私は、診断されていない問題を組み合わせて、壊滅的な障害を引き起こすことも、悪い意味での奇跡ではないかと考えています。

あるフォーチュン500のグローバル企業を例にとってみましょう。この企業では、他の企業と同じようにITシステムを使用しています。つまり、現行のハードウェアと非常に人気のあるソフトウェアを使用して、注文を受け、製造計画を立て、配送予定を立て、請求書を発行しています。IT部門は約3週間、何を製造し、何を出荷し、何を請求するかを知ることができなくなってしまった。この事件はうまく処理され、会社は引き続き繁栄しているため、メディアには載りませんでした。しかし、その3週間の間にクロコダイルはガゼルの真ん中にいて、コアビジネスのITシステムをダウンさせるために協調性のない行動をとっていたのです。

クロコダイル_ダイアグラム_2

潜伏しているクロコダイルがあなたのビジネスを奪う可能性を予測することができるでしょうか?あなたが川の真ん中を歩いているガゼルで、周りには他のガゼルがいて、前に出ている人もいれば、遅れている人もいて、川の左岸近くにいる人もいれば、右岸近くにいる人もいるとしたら、あなたはたくさんのワニがいる川を歩いているのと、ごく少数のワニしかいない川を歩いているのと、どちらがいいと思いますか?

害虫駆除...クロコダイルの数を減らせば、クロコダイルが無心になってあなたを傷つけようとする機会が減るだけだ。そのワニはどこにいるかというと、診断されていないIT問題のバックログの中にいるのです。

診断されていないIT問題の数が多ければ多いほど、1つまたは2つ、あるいは多数の問題が、何の変哲もない変更と何らかの興味深い方法で相互に作用し、システムをダウンさせる可能性が高くなります。IT問題の根本原因が一般的に見つかっている企業は、診断されていない問題を大量に抱えている企業よりも、数学的にITが生き残る可能性が高くなります。潜んでいる問題(どこかのキューに入っていたり、大量の制御できない変更の中にあったり、お粗末なハウスキーピングの中に隠れていたりと、知っている問題)と潜在的な問題(現時点では生産に影響を与えていない問題)です。

具体的には、どのような問題がランダムに発生し、IT障害が長期化するのかを説明します。

例えば、他社を買収して製品ラインを統合する必要があったため、インフラが処理する予定の製品数を変更するとします。

あなたはサプライヤーと協力して必要なハードウェアとソフトウェアを指定し、変更を実行するためのプロジェクトプランを作成しました-変更管理者が参加し、すべてが順調でした。

しかし、あなたが知らなかったのは、診断されていない問題のバックログの中に、生産システムの4つの欠陥が埋もれていたということです。これらの欠陥は、いずれも生産上の問題を引き起こしていないため、サポートスタッフの頭の中にはありませんでした。

  • 過去6ヶ月間のデータベースキューの処理ジョブが遅い
  • このシステムとは明らかに関係のない他のシステムで、共有データストレージデバイスへの論理的な入出力が遅い - この問題は数週間前にインフラストラクチャ組織の別の部分で記録されたものです。
  • 数週間前に正しく適用されなかったデータストレージ・インターコネクトのファームウェア・アップグレードについて
  • 過去1年間、記録が取れないことがあったデータベース監視ツール

これらの問題はログに記録されており、サプライヤーまたはあなたのスタッフのいずれかによる何らかのアクションを待っている状態でした。

その後、ソフトウェアのアップグレードと必要なハードウェアを追加してシステムのパフォーマンスを向上させ、処理のオーバーヘッドを確保します。この変更は(彼らの変更管理の観点からは)完璧に機能します。システムは生産を再開しますが、変更の適用によって生じることが予想されたパフォーマンスのオーバーヘッドを誰もチェックしません。これはとても大きなクロコダイルです。

図3_Lurking Crocs

そして、負荷の増加分を1工場ずつシステムに追加していきます(各ステップで問題がないことを確認しながら)。このプロセスを開始してから約2週間後に「転換点」が訪れ、システムは「自由な流れ」から「乱流」へと反転します。経営者たちは、「このままではビジネスが死んでしまう」と叫び始めます。多くの工場をバッチジョブから切り離し、生産のスケジュールを毎日から週1回に変更しなければならない。いくつかのデポでは、過去の注文から顧客が注文しそうなものを経験から導き出さなければならず、ビジネスは、あなたのシステムなしでビジネスを運営している膨大な数のスタッフの英雄的な行動によってのみ維持されています。

以前の設定に戻すには、2週間分の請求書を失う覚悟がなければできません。そして、新しい構成で前進することが決定され、その過程で「潜んでいるワニ」が発見されたのです。

すべてのクロコダイルがすぐに悪意のあるものだったわけではありません。データベース監視ツールは2週間前に停止していたため、その情報がないことで問題解決の努力が延長されました。

潜んでいる潜在的なクロコダイルは、人知れず、大惨事を引き起こす可能性のある1つのイベントに集結するのを待っている。

生き残るために

他の人の失敗から学ぶべきことがあるのは明らかです。IT集団の中に身を置くことは、あなたとあなたの顧客が下すべき戦略的なITの決断である。

しかし、診断されていない障害があなたに陰謀を企てる可能性を減らすことについてはどうでしょうか?あなたのITサポートデスクのバックログには、何件の未診断のケースがありますか?それらを迅速かつ効果的に解消し、本当に解決が難しいものについては、暫定的な修正や是正措置を行う計画を立てていれば、すべてがうまくいくはずです。

もしあなたがバックログに大量の問題を抱えていたり、バックログを管理可能なサイズに保つために古いケースを日常的にクローズしていたりするなら、あなたは未来にワニを並べているようなものです。

最初に大量のバックログを抱えたお客様との契約では、現状の分析を行い、予想される時間と費用の節約を計算し、レバレッジポイントを特定して、質の高いケース処理プロセスの構造的かつ管理の行き届いた導入を完了します。お客様は、より効果的な業務プロセスとモチベーションの高いエンジニアを備えた、より良いサポート組織を手に入れることができただけでなく、警告なしに襲い掛かろうとしている「潜んでいるワニ」の数が減ったことで、夜もぐっすりと眠れるようになりました。

Kepner-Tregoeについて

Kepner-Tregoe社は、問題解決のリーダーです。60年以上にわたり、Kepner-Tregoe社は、より効果的な根本原因の分析と意思決定のスキルを通じて、世界中の何千もの組織が何百万もの問題を解決するお手伝いをしてきました。Kepner-Tregoe社は、以下のような方法で、コストを大幅に削減し、業務パフォーマンスを向上させるために企業と提携しています。
問題解決のためのトレーニング、技術、コンサルティングサービスを提供します。

関連

インシデントマネジメント文化への挑戦

サティスファクションからカスタマー・ロイヤリティーへ

私たちは以下の専門家です:

お問い合わせ

お問い合わせ、詳細、ご提案はこちらから