重大インシデント管理におけるサービス・エクセレンスの実現

現代のほとんどの企業はテクノロジーに依存しているため、技術的な問題がITの安定性の問題を引き起こし、ひいては組織の機能的な能力に影響を与えるという大きなリスクがあります。

このリスクを軽減するには、迅速かつ効果的な対応を確保し、適切な大規模インシデント管理プロセスを構築することが重要です。

ハッカーによるセキュリティ侵害、システムの停止、顧客データの流出など、毎週のように大規模な事件がニュースで報じられています。このように、企業の内部運営や収益性、商品やサービスの流れに影響を与え、企業のリーダーが会社のアジェンダを推進するという本来の役割から逸脱してしまうような重大なインシデントは、毎日のように無数に発生しています。

Dimensional Research社が400人以上のビジネスおよびIT専門家を対象に実施した2016年の調査によると、回答者の82%がビジネスアプリケーションのダウンタイムが自社の収益に大きな影響を与えると回答しています。大規模なインシデントが発生した場合のリスクエクスポージャーと対応については、ほとんどの経営者が頭を悩ませています。同業他社が危機的状況の管理に苦労しているのを目の当たりにし、自分の個人的なキャリアや会社の将来が数時間または数日の間のパフォーマンスにかかっていることを知っているからです。

大規模なインシデントをうまく管理することで、企業は迅速に通常業務に戻り、市場の評判を保ち、財務的な影響を最小限に抑えることができます。また、適切に管理されたインシデントは、より深い洞察力を提供することで継続的な改善の機会となり、企業が目標に向かって加速し続けるのに役立ちます。インシデントがうまく管理されないと、その影響が持続し、企業の破滅につながる可能性があります。

大規模インシデントの影響

ほとんどの企業は、短期間(数時間から数日)の危機的状況の中で業務を遂行するのに十分なプロセスとリソースを持っています。この期間を過ぎると、スタッフの疲労、問題の滞留、重要な制御メカニズムの喪失により、顧客満足度の急速な低下、コンプライアンス上の問題、調整上の課題などが発生し、完全な回復がより困難になり、コストと時間がかかるようになります(完全な回復が達成できたとしても)。

大規模なインシデントを管理することは、オペレーションへの直接的な影響だけでなく、会社や製品に対する顧客の認識や長期的な信頼にも影響を与えます。反乱軍や新しいビジネスモデルとの競争がますます激化し、利益率が縮小し、新規顧客の獲得コストが増加する中、顧客の維持と満足は、収益の持続性を確保するために不可欠です。お客様は、テクノロジーの問題が起こることを理解しています。お客様もまた、テクノロジーの消費者であり、企業と同じリスクに直面しているユーザーです。

企業の社内業務と同様に、ほとんどのお客様は、企業とのやり取りや、購入・利用する製品・サービスの短期的な中断に対して、ある程度の許容範囲を持っています。しかし、長期にわたる障害、コミュニケーションの不備、タイムリーなサービスの回復の失敗は、顧客の許容範囲や好意を著しく損ない、人間関係や将来のビジネスチャンスに恒久的なダメージを与える可能性があります。

社内の業務への影響やお客様の評判の問題は、最終的には企業の現在および将来の財務状況を悪化させることになり、事件が継続するにつれ、付随的な損害も大きくなります。また、繰り返し起こる問題は、大規模なインシデントの影響をさらに大きくします。一度だけならば許されるかもしれませんが、再び起こった場合には首が飛ぶかもしれません。経営者はこのことを認識しており、ビジネスにおけるテクノロジー依存に固有のリスクを理解し、緩和戦略を策定し、ビジネスに影響を与えるような大規模なインシデントの発生に備えて組織を準備するために、ますます多くの時間を費やすようになっています。

......一度だけなら許されるが、二度目ともなると首が回らなくなるかもしれない。

インシデント管理と重大インシデント管理 - なぜ企業には異なる別のアプローチが必要なのか

ほとんどの企業では、日常的な小規模から中規模の障害に対処するために、インシデント管理プロセスを導入しています。これらのプロセスは、試行錯誤を重ねた顧客サービスの手法や、ITILに代表される標準的なITサービスマネジメントの手法に基づいて構築されています。インシデント管理プロセスは、企業がITシステムに関連して直面する、比較的影響の少ない大量のインシデントやサービスリクエストに対処するのに効果的です。しかし、大規模なインシデントは、日常的に発生する小規模なインシデントとは異なり、別のアプローチが必要となります。

影響と頻度

大規模インシデントまたはハイシバリティインシデント(その名のとおり)とは、組織に大規模かつ重大な影響を与えるインシデントです。このようなインシデントは(願わくば)頻繁に起こるものではありませんが、発生した場合にはビジネスの全機能が影響を受ける可能性があります。典型的なフォーチュン500企業の場合、四半期中に発生する重大インシデントは一握りであるのに対し、通常のインシデントは毎日数百件(場合によっては数千件)発生します。通常のインシデントの場合、影響を受けるのは数人のユーザーに限られ、対応と解決のSLAは運用コストを低く抑えるために延長されることが多いです。大規模インシデントの場合は、影響のコストが解決のコストをはるかに上回り、応答時間と問題への対応の質が重要な成功要因となります。

スキルと参加者

これは、ほとんどのインシデントは日常的に繰り返されるものであり、基本的な診断、二値化された決定事項やナレッジツリー、スクリプト化された応答によって効果的に解決できることを認識しているからです。難易度の高い問題は、技術的な専門知識を持つ第2、第3階層のエスカレーションチームに回されますが、その目的は、インシデントを解決するために利用可能な最小限の技術的(そして最も安価な)リソースを適用することにあります。大規模なインシデントでは、別のリソース調達方法が必要になります。時間が最重要であるため、インシデントを最も迅速に解決できる人的リソースを適用し、ビジネスへの影響の長期化を回避することが目標となります。このような人材は一般的に、高度な訓練を受けた(そして高給の)サブジェクト・マター・エキスパートで、豊富な経験と深い技術的トラブルシューティング・スキルを持っています。

プロセス

ここ数年の傾向として、インシデント管理プロセスは、セルフサービス、自動化、サポートスタッフとの非同期のやり取り(例:グローバルコールセンターのスタッフと電子メールでのやり取り)に移行しています。このような「偏向アプローチ」は、インシデント管理プロセスを最適化して拡張性を高め、人の介入を減らすように設計されていますが、その代償として、より複雑なインシデントの解決にかかる時間が長くなっています。大規模インシデントのプロセスは、ほぼ正反対の方法で最適化されなければなりません。解決策の有効性と解決までの時間が最も重要であり、リソースコストや自動化の考慮事項は重視されません。これらのプロセスがどのように最適化されなければならないかを考えると、一方を他方のサブセットとみなすことは非常に困難です。プロセスの混乱に加えて、リソースの競合や優先順位の違いにより、両方のプロセスのパフォーマンスが低下する可能性があります。

大規模なインシデント管理プロセスを効果的に行うためには、組織は、新しい情報が得られたときに短い反復サイクルで管理しなければならない、トリアージ、診断、意思決定という3つの主要な段階を考慮する必要があります。トリアージは、影響を評価し、問題を特定するために入手可能なすべてのデータを収集し、解決に必要なリソースを理解するのに役立ちます(50人の仲間とブリッジコールに参加する前に!)。診断は、症状(必要に応じて考えられる原因も)を分析し、最も効果的な修復措置を決定するために、情報のギャップを埋めるために重要です。最後に、意思決定とは、リスクを常に可視化しながら選択肢を理解し評価することであり、もちろん効果的に実行することです。

コミュニケーション

インシデント管理のコミュニケーションは、通常、問題を報告するユーザーと、その問題を解決するために働く担当者またはチームとの間の直接的なやりとりに焦点を絞っています。エスカレーション、つまりインシデントを経営陣に知らせることは、最初のプロセスの「失敗」または「例外」と見なされ、ビジネスに不必要なコストを加えることになります。

大規模インシデントは、ステークホルダーとの積極的かつ広範なコミュニケーションが、影響を正確に評価するのに役立つだけでなく、期待を管理し、インシデントがコントロールされているという自信をステークホルダーに植え付けるのにも役立つという点で異なります。多くの大規模インシデントでは、技術的な問題や関連する症状よりも、ステークホルダーとのコミュニケーションによって生まれる認識の方が、全体的な影響を決定する上で大きな役割を果たします。効果的な大規模インシデントのコミュニケーションは、4つの別々のステークホルダーグループを対象とする必要があります。

  1. 事故が活動に直接影響を与える影響を受けたユーザーコミュニティ
  2. インシデントの管理が信頼に影響を与える可能性のある、間接的または潜在的に影響を受けるステークホルダー
  3. インシデントの診断と解決に参加する必要のある社内チームとSME(ベンダーの担当者も含むことができる)
  4. サポートとITマネジメント

パーセプションの管理

通常の事件では、1人または数人のユーザーが関与し、その認識が事件そのものに直接結びついているのに対し、重大な事件では、さまざまな影響因子を含む感情的な反応や群衆の動きを引き起こすことがよくあります。大規模な事件では、その衝撃によって情報が口コミで急速に広がるだけでなく、アイドルの従業員が、事件がどのように管理されているかについて、憶測、推論、出来事の不正確な解釈、偏見、傍観的なコメントをコミュニケーションの中に持ち込むことも珍しくありません。

大規模インシデント管理には、コミュニケーションの流れをコントロールし、認識を管理することが重要です。もし、大規模インシデント管理チームからの公式メッセージが明確で、タイムリーで、ステークホルダーが期待する情報を提供していなければ、誤った情報が公式メッセージを上回り、結果的に混乱が拡大し、顧客の体験がマイナスになってしまう危険性があります。

エグゼクティブの関与と意思決定

大規模インシデントとその解決に必要な活動は、全体的な技術やパフォーマンスへの影響に加えて、しばしばビジネス機能の境界を越えて展開されるため、意思決定権限の問題が生じます。大規模なインシデントでは、ほとんどの場合、影響分析やコミュニケーションを支援し、障害物を取り除くために必要な重要な意思決定を行うために、何らかの経営陣の関与が必要となり、問題を解決することができます。このようなリスクの高い環境では、経営陣は、ある行動によって期待される結果とそのリスクを比較検討しなければなりません。これには明確なオーナーシップだけでなく、現在のインシデントについて何が分かっていて何が分かっていないのか、明確でアクセス可能なデータが必要です。大規模インシデント管理プロセスには、活発な大規模インシデントが発生している間の遅延や混乱を避けるために、部門横断的な意思決定ガイドラインが含まれていなければなりません。

症状を緩和することは困難ですが、原因に対処することはさらに困難なことです。

大規模インシデント管理の課題は、サービスが復旧しても終わりではありません。通常のインシデント管理プロセスと同様に、「本番」の大規模インシデントの主な目的は、影響を軽減し、是正措置を講じてビジネスを通常通りに戻すことです。根本的な原因を理解し、問題の再発を防ぐためのアクションを実行することは、問題管理プロセスの範囲内です。大規模インシデントはビジネスへの影響が大きいため、根本原因の究明と再発防止策の実施がタイムリーに行われるよう、経営陣が積極的にフォローアップするのが一般的です。

多くの場合、問題管理に対する経営者の期待は非現実的であり、課題は2つあります。

  1. インシデントの症状を乗り越え、真の根本原因を特定する。活発な大規模インシデントを管理するための混乱の中で、重要な診断情報が失われたり破壊されたりして、根本原因の特定が妨げられることがよくあります。
  2. 予防措置のためのサポートと優先順位を確保し、ビジネスが正常に回復した後に修正を実施する。ビジネスに影響が出ている間は、「やらなければならないことは何でもやる」という姿勢になりがちですが、サービスが復旧するとすぐに消えてしまいます。

この2つの落とし穴を避けるためには、高度に統合された大規模なインシデント・問題管理プロセスが必要であり、重要な「原因情報」が積極的に確保され、文書化され、サービスの改善が継続されます。このようにして初めて、真のIT安定性を長期間にわたって実現することができるのです。

コンプライアンスvs.インパクトの緩和

データやテクノロジーの悪用が後を絶たないことから、世界中の政府や規制機関は、特定の種類のテクノロジーやデータのセキュリティ、忠実性、および適切な管理を確保するために、企業に幅広いコンプライアンス要件を課しています。これらの規制への準拠を維持・確認するために、ほとんどの企業は、個人の行動が企業の義務と一致していることを確認するために、一連のプロセスおよびシステム管理を実施しています。

大規模なインシデントが発生すると、これらの管理が煩雑になり、状況の効果的な診断と解決が阻害される可能性があります。

このような状況になると、企業のリーダーやサポートスタッフは、「緊急時にはガラスを割る」という選択を迫られることが多くなります。つまり、制御メカニズムをバイパスして規制不適合のリスクを負うか、制御メカニズムを維持して事故の影響を長引かせるか、ということです。

これは、救急外来の医師が「患者を救うか」「手足を救うか」という選択を迫られるのと同じことです。

状況やバイパスされる制御の性質によっては、この決定が規制上の影響を及ぼし、企業の将来の業績に影響を与える可能性があります。これは、緊急治療室の医師が「患者を救うか、手足を救うか」という選択を迫られたときのビジネス上の判断に相当します。企業の重大インシデント管理プロセスは、この点を考慮し、明確に定義されたポリシーと、それを回避することを考慮しなければならない例外プロセスを提供する必要があります。ほとんどの場合、規制当局は、文書化された例外を通常の管理メカニズムの十分な代替として受け入れるため、事前の計画が重要となります。

ほとんどの大規模なインシデントは一時的なものであり、企業は(願わくば)通常のオペレーションに戻ることができます。これには、コンプライアンスのためのプロセスおよびシステム制御も含まれます。コンプライアンス管理を迂回することによる直接的な影響に加えて、企業は、しばらくの間迂回した後に管理メカニズムを再構築する際の課題と影響を考慮する必要があります。インシデントが解決した後も、コストと時間のかかる可能性の高い、さまざまなフォローアップ活動が必要になるかもしれません。ガラスを割る」という決断をする際には、それらを考慮することが重要です。

手遅れになるまで待つ必要はありません。

企業のリーダーは、大規模なインシデントがいつ発生するかをコントロールすることはできませんが、企業がどのように大規模なインシデントを管理し、対応するかをコントロールすることはできます。効果的でよく理解された大規模インシデント管理プロセスを含む全体的なサービスエクセレンスは、インシデントに迅速に対応し、当面の影響を解決し、会社の評判を維持し、業務上および顧客のリスクを軽減する鍵となります。

大規模インシデントのプロセスは、通常の日常的なインシデントを管理するプロセスとは別に、ステークホルダーとの思慮深いタイムリーなコミュニケーションに加えて、迅速かつ効果的な解決のために最適化されるべきです。活発なインシデントが発生している間、サポートスタッフや経営陣は、エンドツーエンドのプロセスを掌握し、自分たちの活動を導いてくれる大規模インシデント管理に頼らなければなりません。

  • 事件と症状の理解
  • 影響の緩和とリスクの管理
  • 意思決定が可視化され、データに基づいて行われるようにする
  • 考えられる原因の評価(必要に応じて)
  • 認識と期待の管理
  • 正常な状態に戻ること

大規模インシデントをうまく管理することは、多くのITおよびサポート部門の幹部にとって、例えば新しい変革の取り組みほど魅力的ではないかもしれませんが、管理が不十分だと確実に悲惨なことになります。Kepner-Tregoe社は、業界をリードする問題解決会社として、60年以上にわたり、オペレーションやITにおける大規模インシデントの管理能力を向上させ、お客様が優れたサービスを実現できるように支援してきました。

著者

クリストフ・ゴールデンシュテルン

戦略およびサービス・エクセレンス担当VP

クリストフは、20年以上にわたり、戦略、オペレーション、サービス改善の分野で組織を支援してきたコンサルティングリーダーです。KTのエグゼクティブ・リーダーシップ・チームのメンバーであり、戦略およびサービス・エクセレンス担当のグローバルVPとして、KTのビジネス戦略、ITサービスマネジメントおよびテクニカルサポートのソリューションを担当している。

私たちは、本当に役立つユニークなコンテンツを作るために努力しています。ご興味をお持ちいただきありがとうございます。

記事全体を読むには、会員登録またはログインが必要です。

関連

プロセス・ナレッジとコンテンツ・ナレッジ。どちらがより重要か?

左にシフト?いいえ、サービスサポートの成功のために「シフトダウン」してください。

私たちは以下の専門家です:

お問い合わせ

お問い合わせ、詳細、ご提案はこちらから