ITIL環境におけるトラブル・マネジメントの質の測定

トラブル・マネジメントのあり方に迫る

アナリストやエンジニアがどのように問題に取り組み、根本的な原因を見つけ、適切なアクションでフォローするのかを理解することは、簡単なことのように聞こえます。ITILトラブル・マネジメントの実務適用事例にアクセスできれば、ケースの内容を読むことができます。必要なのは、トラブル・マネジメント・ツールへのアクセスと、そのツールを使うためのスキルだけのようです。

しかし、トラブル・マネジャーにトラブルの処理方法を尋ねれば、トラブルを発見し取り組む際に、どのような手順を踏んでいるかを説明した真の手順が明らかになるのが一般的です。これらの文書化されたプロセスや手順は非常に有用です。注意を要するトラブルを進行させるために取るべき手順について、期待値が非常に明確に設定されています。

トラブルのチケットを読んだり、トラブル・マネジャーに手順のステップをどのように埋めているかを尋ねたりすることは、トラブル・マネジメントでどのように価値が生み出されるかを知るための論理的な次のステップのように思えます。では、トラブル・マネジメントのパフォーマンスはどのように測定されるのでしょうか?多くの組織は、トラブルにまつわるタイミング関連のパラメータを測定したり、ある状態でのトラブル・チケットの数を数えたりしているようです。例としては以下のようなものがあります。

  • 担当グループごとの未解決トラブル・チケット数(バックログの時系列推移)
  • 未解決トラブル・チケットの平均滞留時間
  • トラブル・チケットの根本原因の特定にかかる平均時間
  • 繰り返し発生するトラブルの数

トラブル・マネジメントの目標:トラブルの原因を発見し、将来の問題を回避するために積極的に行動を起こすことを考えると、上記の例は、チームがこれらの目標に対してどの程度成功しているかを示すものでしょうか?私たちは、あることを求めて、全く違うことを測定しているのでしょうか?

実際の体験談

あるグローバル企業のIT部門において、トラブル・マネジメントがどのように行われているかを評価し始めてから2日ほど経った頃、評価参加者の間で調査結果を比較するために休憩を取ることにしました。調査の対象となった分野は、チケットの概要とトラブルの説明、個々の進捗の更新状況、解決方法の説明などです。

ほとんどのトラブル・チケットは、影響を受けたアプリまたはハードウェアとそのトラブルを明確に示し、その後に詳細な説明にいくつかの基礎データが続くというパターンが見られました。さらに更新された内容は、トラブルがトラブル・マネジメントの手続きを経て、解決策の説明の中でどのように結論に達するかを示していました。

これは個別の事例のようですが、評価を行ったチームの中で見られたパターンを表しています。他の事例を見ると、次のようなことが見て取れました。

トラブル・チケットの例

このことは、どのように結論が出され、どのような行動がとられたのか、あるいは計画されたのかについて、一連の疑問を提起しています。

  • 原因究明を効率的に行うためには、どのようなデータを集めればよいのでしょうか。
  • 適切なタイミングで適切なデータを収集したことを確認するにはどうすればよいのでしょうか。
  • その魔法はどのようなものでしょうか?どのような手順を踏んだのでしょうか?どのような文書化されていない思考がなされたのでしょうか?
  • 他にどのような原因が考えられますでしょうか?
  • 発見された原因が本当に「真の原因」であると、解決チームはどの程度確信していたのでしょうか。
  • トラブルを解決するためにとった行動が、どのような副作用を引き起こすでしょうか?

これらの質問に対する回答は、発生したチケットに対してトラブル・マネジメントでどのように価値が創造されたかについて、良い洞察を与えてくれるかもしれません。これらの質問に対する回答は、通常、トラブル・マネジメント・プロセスのタイミングや数値パラメータとは関係ありません。それらは、データ収集の質と、関与した個人による思考プロセスの質に関するものです。

繰り返し起こるトラブルをコントロールする - 安定性を手に入れる

「魔法」がうまくいくと、上記のトラブル・マネジメントのパフォーマンス指標として示された、再発するトラブルの数が少なくなると述べる人もいるかもしれません。これは本当です。

残念ながら。

しかし、繰り返し起こるトラブルによって企業が受け取るメッセージは、問題が初めて発生したときに、トラブル・マネジメント・プロセスが根本原因を見つけるのに十分に機能しなかった、というメッセージです。再発には数週間から数ヶ月かかるので、これはトラブル・マネジメントのパフォーマンスが遅れをとってしまう不正確な指標です。本当に必要なのは、企業が再発する問題の数が減少することを予言できるような、トラブル・マネジメントのパフォーマンスを測定する方法です。となれば、トラブル・マネジメントのための主要なパフォーマンス指標は何でしょうか?

トラブルがどの程度うまく解決されたかを示す指標を見つけることは、再発は喜ばれないが破滅的でもないような単純な(影響の少ない)トラブルに対しては、穏やかな効果しかないかもしれません。企業によっては、時折、ITに関連する1つまたは複数の事象に対する致命的なビジネス・イベントの端でバランスをとるような重大インシデントやトラブルが発生し、そのような経験は二度と繰り返さないことを決意することがあります。繰り返されるトラブルや傾向を測定することは、十分な指標にはならないでしょう。

魔法をかけるためのベスト・プラクティス?

エンジニアやアナリストに、トラブルのチケットを処理する際の思考プロセスを尋ねると、さまざまな答えが返ってきます。これは、同じ聴衆に特定のアプリケーションやあるハードウェアの設定方法を尋ねた場合とは全く異なります。アプリケーションやハードウェアを設定するための共通のアプローチが多くの利点を持っていることは、今日では非常に明白です。

  • 使用する設備に合わせた「最適な構成」がバラツキを抑える
  • 設備がインフラ全体にどのような付加価値を与えるかを共通に理解することで、キャパシティ・マネジメントに役立つ
  • 設備の設定や変更に関するコミュニケーションを簡素化する
  • シームレスで高品質な引き継ぎとメンテナンスを可能にする

対して、問題解決のための共通のアプローチが存在しないことが少なくありません。その結果、魔法として残っているのです。

トラブルの根本的な原因を見つけるためのベスト・プラクティスが確立されれば、設備を設定するためのベスト・プラクティスと非常によく似た利点が得られます。さらに、「魔法」がどのように見えるか、どのように結論に達したかを文書化する用語を使った、トラブルシューティングのための新しい用語の使用が可能になります。

魔法

「魔法」とはどのようなものか?

トラブルの根本的な原因を見つけるには、さまざまな方法があります。ある人はより成功し、ある人は(標準的なフレームワークがなければ)当然ながら異なるアプローチをとります。トラブルシューターのグループの有効性は、ベルカーブに沿ってどこかに落ちます。優秀なトラブルシューターは良い評判を得ており、自信を持って何でも取り組むことができます。堅実なトラブルシューターは、ほとんどのタスクに適していますが、改善の余地があり、トラブルシューティングの評判が悪い人は、おそらく助けが必要です。

問題分析のための問題解決・意思決定法(KT法)は、1950年代に研究・定義され、それ以来、改良とテストが続けられています。これは、ITILが発明される何年も前のことであることは容易に認識できます。

この手法が研究された当時は、ITもITILも存在しなかったので、これほど長い歴史を持つ手法がIT業界にふさわしいはずがない、という議論があります。より適切な判断をするために、KT問題分析を詳しく見ていきます。KT問題分析の主なステップは以下の通りです。

  • 問題の記述
  • 可能性のある原因の想定
  • 想定された原因の評価
  • 真の原因の確定
  • 問題解決後の考察

これらの各ステップには、明確な意図といくつかのサブ・ステップがあり、質問と回答の文書化を通じて、KT問題分析の思考プロセスに正しいデータを送り込むために実行されます。これは、特定の製品や問題を意識することなく行われ、あらゆるIT組織で活用されているITILと非常によく似ています。KT問題分析は、業界や技術に関係なく、様々なトラブルの根本原因を見つけるためのアプローチです。

何か問題がありましたか?

そうですね。。 しかし、「問題」という言葉にはケプナー・トリゴー流の定義があり、それはITILとは異なるものですが、非常にうまくマッチしています。ケプナー・トリゴーによれば、問題分析プロセスを開始する前に、3つの基準が満たされなければなりません。

  1. あるべき姿と現実の姿の間にギャップがある。これが差異と呼ばれるものです(例えば、動くはずの機械が動いていない)。
  2. 差異の原因が不明である。
  3. 差異の原因を知る必要性がある。

根本的原因を見つけるための明確なステップを踏んだ結果、トラブルシューターは、すでに行われたこと、これから行うべきことをコミュニケーションし、文書化することができるようになります。下の図は、収集したデータを視覚化し、問題の症状を説明する方法の一例です。

問題分析例

既知の魔法

KT問題分析の一貫した再現可能なプロセスがよく理解できれば、発見された根本原因の質を測定することは非常に容易になります。根本原因の発見の魔法が理解できれば、文書化、再現、スムーズな引継ぎ、効率的な時間設定が可能になり、これらはすべてベスト・プラクティスになります。

ITサポート組織が問題分析に統一されたアプローチを使用し始めると、個人やチームの品質や価値を即座に測定することができます。これは、ITサポート環境で行われている既存のトラブルシューティング・プロセスの品質を評価する際に、ケプナー・トリゴーのコンサルタントが行うこととまったく同じです。既存のインシデントおよびトラブル・チケットを読み、既知の行動標準に対してアプローチをどの程度構成するかを推定することにより、トラブルシューティングの品質に関するベースライン先行指標を生成することができます。

一例を挙げますと、「対象と差異」という形で一貫して問題を文書化しているITスタッフは、他のスタッフと比較して根本原因を発見するまでの時間が平均で10%強短いようです。

専門家が根本原因を探ろうと計画している対象(物)と差異を文書化するだけで、解決までの時間を10%強短縮できるというのですから、そんなことはあり得ないほど簡単なことに聞こえるかもしれません。そうかもしれません。簡単そうに見えて、実はそうではないのです。この思考プロセスを刷り込み、反射的に実行するには、行動を変える必要があります。そして、ビジネス上の時間やその他のプレッシャーがかかる瞬間には、このシンプルなステップを実践し、プレッシャーのかかる問題から離れてサポートしなければ、挫折してしまう可能性があるのです。トラブルシューティングのベスト・プラクティスを実施するための手順はよく理解されていますが、変更を加えるには、注意、集中、優れた計画、そして思考が必要です。幸いなことに、考えることは簡単ですが、実施チームは気が散ってしまうかもしれません。KT問題分析のようなケプナー・トリゴーの思考プロセスは、根本原因の確実な発見を保証するものではありません。それは、すでに知識のある専門家をゴールへ導くための方法に過ぎず、根本原因を見つけるまでの時間は、そのプロセスに入るデータ(と観察された事実)の質によって変わります。

後者は成功のための重要な要素です。フォーム、テンプレート、スプレッド・シートを埋めるだけでは、良い根本原因は得られません。KT問題分析は、積極的に使用する必要があるハードロジックの強固な基礎の上に構築されているからです。またKT問題分析は、積極的に使用する必要があるハードロジックの強固な基盤の上に構築されているため、集中的なデータ収集、思考、確認を必要とし、この点では非構造化の環境におけるトラブルシューティングと何ら変わりはありません。大きな変化は、KT問題分析の明確な基本計画に基づいて、思考のステップが可視化され、名前が付けられたことです。その結果、根本的な原因を見つけるプロセスにおいて、自分たちがどこにいて、どのように行動しているかを測定し、伝えることができるのです。

この場合の「測定」は、どれだけの時間、どれだけのチケットが所定の基準を満たしたかを検索するためのデータベースの命令文ではありません。つまり「測定」とは、KT問題分析の特徴的なステップで収集されたデータの品質を判断する内部の(トラブルシューティングの)専門家による評価です。このような評価は、KT問題分析の品質に関する主要なパフォーマンス指標となります。

これからどうする?

バイオリン演奏の本を読んでも、読者が優れたバイオリン奏者になるわけではありません。同様に、トラブルシューティングにおけるより良い思考法をトレーニングするだけでは、その組織を世界レベルのトラブルシューター集団に変えることはできないでしょう。個人の思考にあるアプローチを埋め込むには、注意、実践、および献身が必要であり、それは必ず報われるでしょう。トラブル・マネジメントにおける根本原因の発見方法に投資することは、技術的なスキルや経験への投資を支援し、複雑な問題に対する良質な解決策を見つけるために必要なことを認識し、十分に装備した労働力を生み出すことにつながります。ケプナー・トリゴーのトラブル・マネジメントは、明確で計画的な方向性があり、到着時間はより予測可能で、その品質を測定することができます。

By Berrie Schuurhuis, Kepner-Tregoe

 

ケプナー・トリゴーについて

ケプナー・トリゴーは、問題解決のリーダーです。ケプナー・トリゴーは、60年以上にわたり、より効果的な根本原因の分析と意思決定のスキルを通じて、世界中の何千もの組織が何百万もの問題を解決するお手伝いをしてきました。ケプナー・トリゴーは、問題解決のためのトレーニング、コンサルティング・サービスの提供を通じて、コストを大幅に削減し、
業務パフォーマンスを向上させるために企業と提携しています。

関連

重大インシデント管理におけるサービス・エクセレンスの実現

金融機関が抱える技術負債の解消に向けて

私たちは以下の専門家です:

お問い合わせ

お問い合わせ、ご意見、詳細確認はこちらから