潜伏するワニ

潜伏するワニ

あなたが夜眠れないのはなぜでしょうか?それは、川や水飲み場に潜むワニ が何の前触れもなく襲ってくるのではないかと考えるからかもしれません。もし、あなたの生活が、1日に1回しか水飲み場を訪れる必要がなく、長い移動の間で川を渡らないとしたらどうでしょう。ワニに気を取られることはないと思います。逆にワニがはびこる川の真ん中を24時間365日歩き続けるとしたらどうでしょう。きっと警戒心を常に保ち、快適ではなく、ごくわずかな短い時間しか落ち着かずに眠ることができないでしょう。

川に住むことが人生であるならば、ワニの数をできるだけ少なくし、群れの端に留まってワニに捕まる可能性に身をさらさないことが、あなたにとっての利益になるはずです。

群れの本能

群れの真ん中にいることは、生き延びるために重要なことです。この生存本能の影響は、企業が新しいOSをリリースしたときに現れます。早期採用者はそれをダウンロードして遊びますが、すぐにコア・ビジネスツールとして使う人はほとんどいません。賢い人は、まず水が試されるまで待ちます。賢い人は、後れを取らないように追いつくことも知っています。私たちは、ベンダーが何年も前にサポートを終了したアプリケーションが、いまだにミッション・クリティカルな業務で使われていることを知っています。

人はどのようにして偶然、群れの端に身を置くのか?

明確なリスク・マネジメントがないままの進展:

  • リリースされたばかりの未テストのコードの製造装置へのダウンロード
  • 発売されたばかりの未検証のハードウェアの本番環境への導入と試運転
  • 本番のワークロードの未検証の構成でのダウンロード
  • ショットガン・スタイルのトラブルシューティング時の緊急変更コントロール

現在のシステムを変えないことでの遅れ:

  • サポートが終了した基幹業務ソフトの使用
  • サポートされていないハードウェアの本番使用

エキゾチックなソリューションの設定:

  • ハードウェアとソフトウェアを統合したシステムでのオンリーワン・システムの実現
  • コア・コードを変更したシステムの独自化

エキゾチックなプロファイルの設定:

  • システムの能力以上の酷使
  • アプリケーションに合わせたソフトウェアやファームウェアのパラメータの極端な調整
  • システムが直線的な流れから乱流に移行する飽和点への到達

図1

クロコダイル_ダイアグラム_1

群れの端にいると、潜んでいるワニに簡単に襲われてしまいます。

害虫駆除

Alaska州歳入局のコンピュータ技術者が定期メンテナンス作業中にディスク・ドライブを再フォーマットした際、悪い意味での小さな奇跡が起きてしまいました。その技術者は、 Alaska住民の最大の特典の1つである石油資金の口座の申請者情報を誤って削除してしまい、バックアップ・ドライブも誤って再フォーマットしてしまったのでした。

まだ望みはありましたが、3つ目の防衛手段であるバックアップ・テープが読めないことが発覚したのでした。バックアップ・テープが機能していれば、この話はなかったでしょう。この場合、バックアップ・システムに既知の未解決の問題があったかどうかについては言及されていませんが、データを復元できるかどうか確認しましたか?この失敗により、彼らは1TP200,000の追加コストと未知の評判の低下を被りました。あなたを待っているのは、潜伏するワニではありませんでしたか?

他社と同じようなことをして、標準的な構成と標準的なソフトウェアを使い、最新の状態に保ち、パフォーマンスの許容範囲内に収めるという、群れの真ん中にいるだけでは、生き残りの保証にはなりません。

私たちケプナー・トリゴーのコンサルタントが目にする最悪のITインシデントは、潜在的な問題、目に見える問題、診断されていない問題、完了していない変更などが複合的に絡み合い、奇跡を起こしているものです。奇跡とは、しばしば驚くべき、あるいは素晴らしい出来事だと考えられています。私は、診断されていない問題を組み合わせて、壊滅的な障害を引き起こすことも、悪い意味での奇跡ではないかと考えています。

あるフォーチュン500のグローバル企業を例にとってみましょう。この企業では、他の企業と同じようにITシステムを使用しています。つまり、現行のハードウェアと非常に人気のあるソフトウェアを使用して、注文を受け、製造計画を立て、配送予定を立て、請求書を発行しています。IT部門は約3週間、何を製造し、何を出荷し、何を請求するかを知ることができなくなってしまいました。この事故はうまく処理され、会社は引き続き繁栄しているため、メディアには載りませんでした。しかし、その3週間の間にワニはあなたたちの真ん中にいて、コア・ビジネスのITシステムをダウンさせるために協調性のない行動をとっていたのです。

クロコダイル_ダイアグラム_2

潜伏しているワニがあなたのビジネスを奪う可能性を予測することができるでしょうか?あなたが川の真ん中を歩いていて、周りには人がいて、前に出ている人もいれば、遅れている人もいて、川の左岸近くにいる人もいれば、右岸近くにいる人もいるとしたら、あなたはたくさんのワニがいる川を歩いているのと、ごく少数のワニしかいない川を歩いているのと、どちらがいいと思いますか?

害虫駆除...ワニの数を減らせば、ワニが無心になってあなたを傷つけようとする機会が減るだけです。そのワニはどこにいるかというと、診断されていないIT問題のバックログの中にいるのです。

診断されていないIT問題の数が多ければ多いほど、1つまたは2つ、あるいは多数の問題が、無害な変更と何らかの興味深い方法で相互作用し、システムをダウンさせる機会が増えます。IT問題の根本的な原因が見つかる企業は、診断されていない問題が多数存在する企業よりも数学的に生き残る可能性が高いです。問題は、待ち伏せされること(どこかのキューに入っていたり、制御不能な変更の塊になっていたり、不十分なハウス・キーピングに隠れていたりして、その存在分かっている)と、表面化しないこと(今のところ生産に影響を与えていない、その存在が分かっていない)の両方です。

具体的に、どのような問題がランダムに発生し、IT障害が長期化するのかを説明します。

例えば、他社を買収して製品ラインを統合する必要があったため、ITインフラが処理する予定の製品数を変更するとします。

あなたはサプライヤーと協力して必要なハードウェアとソフトウェアを指定し、変更を実行するためのプロジェクト・プランを作成しました-チェンジ・マネージャーが参加し、すべてが順調でした。

しかし、あなたが知らなかったのは、診断されていない問題のバックログの中に、生産システムの4つの欠陥が埋もれていたということです。これらの欠陥は、いずれも生産上の問題を引き起こしていないため、サポート・スタッフの頭の中にはありませんでした。

  • 過去6ヵ月間のデータベース・キューの処理が遅かった
  • このシステムとは明らかに関係のない他のシステムで、共有データ・ストレージ・デバイスへの論理的な入出力が遅かった - この問題は数週間前にインフラの別の部分で記録されたもの
  • 数週間前にデータ・ストレージのインターコネクトのファームウェアのアップグレードが正しく適用されなかった
  • 過去1年間、データベース監視ツールが時々記録しなくなることがあった

これらの問題はログに記録されており、サプライヤーまたはあなたのスタッフのいずれかによる何らかのアクションを待っている状態でした。

そして、ソフトウェアのアップグレードと必要なハードウェアを追加し、システムのパフォーマンスを向上させることで、ある程度の処理を得ることができます。この変更は(彼らの変更管理の観点からは)完璧に機能します。システムは生産を再開しますが、誰も変更の適用がもたらすと予想されたパフォーマンスをチェックしません。これは非常に大きな潜伏するワニです。

図3_Lurking Crocs

そして、負荷のかかる作業を1工場ずつ追加していくのです(念のため、1工程ごとに確認)。1日分の仕事を処理するのに20時間かかっていたのが、1日60時間かかるようになるのです。経営者たちは、「ビジネスが死んでしまう」と叫び始めます。多くの工場をバッチ処理から切り離し、生産スケジュールを毎日から週1回に変更しなければならなくなります。いくつかのデポでは、過去の注文から顧客が注文しそうなものを経験から導き出さなければならず、あなたのシステムなしでビジネスを運営している膨大な数のスタッフの英雄的行動によってのみ、ビジネスは維持されます。

以前の設定に戻すには、2週間分の請求書を失う覚悟がなければできません。そして、新しい構成で前進することが決定され、その過程で「潜んでいるワニ」が発見されるのです。

すべてのワニが悪意のあるものだったわけではありません。データベース監視ツールは2週間前に停止していたため、その情報がないことで問題解決の努力が延長されました。

潜んでいるワニは、人知れず、大惨事を引き起こす可能性のある1つのイベントに集結するのを待っています。

生き残るために

他人の失敗から学ぶべきことがあるのは明らかです。IT集団の中に身を置くからには、あなたとあなたのクライアントは、戦略的なITの決断を下さなければなりません。

しかし、診断されていない故障があなたに不利に働く可能性を減らすことについてはどうでしょうか?ITサポート・デスクのバックログには、どれくらいの診断されていないケースがあるのでしょうか?もし、それらを迅速かつ効果的に片付けているのであれば、そして、本当に解決が難しいものについては、暫定的な修正と是正処置を行う計画があるのであれば、すべてがうまくいくでしょう。

もし、バックログに大量の問題があったり、管理しやすい大きさに保つために、その最も古いケースに日常的に蓋をしたりしたら、あなたの未来にワニを並べているようなものです。

当初、大量のバックログを抱えたクライアントに対して、私たちは現状把握を行い、予想される時間と費用の削減を算出し、レバレッジ・ポイントを特定し、良質なケース処理プロセスの構造的かつ管理された導入を完了させるために協力します。より効果的な作業プロセスやモチベーションの高いエンジニアを擁するより良いサポート組織を手に入れただけでなく、警告なしに飛びかかることを待つ「潜伏するワニ」が少なくなったことで、夜もぐっすり眠れるようになったそうです。

ケプナー・トリゴーについて

ケプナー・トリゴーは、問題解決のリーダーです。ケプナー・トリゴーは、60年以上にわたり、より効果的な根本原因の分析と意思決定のスキルを通じて、世界中の何千もの組織が何百万もの問題を解決するお手伝いをしてきました。ケプナー・トリゴーは、問題解決のためのトレーニング、コンサルティング・サービスの提供を通じて、コストを大幅に削減し、
業務パフォーマンスを向上させるために企業と提携しています。

関連

インシデント・マネジメント文化への挑戦

サティスファクションからカスタマー・ロイヤリティーへ

私たちは以下の専門家です:

お問い合わせ

お問い合わせ、ご意見、詳細確認はこちらから