重大インシデントへの対応計画は手遅れになる前に早めの対応を

現在進行中のパンデミックは、何か大きな問題が起こったときに備えておくことの重要性を再認識させてくれます。Covid-19の脅威が明らかになったとき、サプライチェーンの混乱、PPEの在庫や機器の不足、相反する医療政策が、最適な明快さとスピードで対応する能力を妨げました。

ITダウンタイムのコストは膨大なものになる

重大インシデントとは、影響が大きく、深刻度の高いインシデントのことです。ITシステムに大きく依存している組織では、このようなインシデントはあまり頻繁に発生しませんが、発生した場合は、迅速かつ計画的な対応が重要になります。ITのダウンタイムがもたらすコストは莫大なものになる可能性があります。推定コストは、中小企業で1分あたり427ドル、大企業で1分あたり9,000ドルと幅があります。eコマース大手のAmazonは、数年前にダウンタイムのコストを以下のように見積もっていました。 $220,000/分。

日常的なインシデント・マネジメント・プロセスは、比較的影響の少ない大量のITインシデントやサービス・リクエストに対処するのに効果的です。インシデント・マネジメント・プロセスは、セルフサービス、自動化、サポート・スタッフとの非同期のやり取り(グローバル・コールセンターと電子メールのやり取りなど)に移行する傾向にあります。限られたトレーニングと技術的なスキルを持つサービス・デスクの担当者は、基本的な診断、二値化されたディシジョン・ツリーやナレッジ・ツリー、スクリプト化された応答によって、日常的なインシデント・マネジメント機能に対応することができます。より困難な問題は、技術的な専門知識を持つ第2、第3階層のエスカレーション・チームに回されますが、その目的は、インシデントを解決するために利用可能な最小限の技術的かつ安価なリソースを適用することにあります。

重大インシデントは、小規模な日常的なインシデントとは異なるため、別のアプローチが必要です。通常のインシデントは、通常、数人のユーザーにしか影響を与えません。重大インシデントの場合、その影響にかかるコストは解決にかかるコストをはるかに上回ります。重要な成功要因は、レスポンス・タイムとレスポンスの質です。時間が最も重要であるため、ビジネスへの影響を最小限に抑えるために、インシデントを最も早く解決できる人材を適用することが重要です。このようなリソースは通常、豊富な経験と深い技術的トラブルシューティング・スキルを持ち、高度な訓練を受けた(そして高給取りの)専門家です。目標は、迅速に対応し、差し迫った影響を解決し、組織の評判を維持し、業務リスクと顧客リスクを軽減することです。

認識の管理が重要

頻繁にインシデントが発生している間、サポート・スタッフやエグゼクティブは、エンド・ツー・エンドのプロセスをコントロールし、活動を導くために、主要なインシデント・マネジメント・リソースを頼りにする必要があります。

  • トラブルと症状の理解
  • 影響の緩和とリスクの管理
  • 意思決定の可視化、およびデータに基づいた判断
  • 考えられる原因の評価(必要に応じて)
  • 認識と期待の管理
  • 正常な状態への復帰

重大インシデントの管理に失敗すると悲惨なことになります。重大インシデントの管理には、コミュニケーションの流れをコントロールし、認識を管理することが重要です。重大インシデント・マネジメント・チームからの公式メッセージが明確かつタイムリーでなければ、誤った情報が公式メッセージを上回ってしまい、結果的に混乱が拡大し、お客様にネガティブな体験をさせてしまう可能性があります。

全体的な技術やパフォーマンスへの影響に加えて、重大インシデントの活動はビジネス機能の境界を越えて行われることが多く、意思決定の権限問題が発生します。このような状況では、経営陣は、ある行動によって期待される結果とそのリスクを比較検討しなければなりません。そのためには、何が分かっているかだけでなく、何が分かっていないかについても、明確でアクセス可能なデータが必要です。重大インシデント・マネジメント・プロセスには、重大インシデントが発生している間の遅延や混乱を避けるために、部門横断的な意思決定のガイドラインが含まれている必要があります。

インシデントを解決しても、それで終わりではない

重大インシデント・マネジメントの課題は、サービスが復旧しても終わりではありません。通常のインシデント・マネジメント・プロセスと同様に、「ライブ」の重大インシデント時の主な目的は、影響を軽減し、是正措置を講じてビジネスを通常のオペレーションに戻すことです。ここで問題管理が必要となり、根本原因を完全に理解する必要があります。根本原因を特定し、問題の再発を防ぐためのアクションを実行することは、困難を伴います。 重大インシデントが発生した際には、重要な診断情報が失われたり、破壊されたりして、根本原因の特定が困難になることがあります。真のIT安定性を実現するためには、重要な「原因情報」を確保して文書化し、サービスの改善を確実に継続するための、統合された重大ンシデントおよび問題管理プロセスが必要です。

ITダウンタイムのコストと脅威は膨大なものになります。重大インシデント対応への投資は、ITの安定性と継続的なビジネスの成功を維持するために不可欠です。

ケプナー・トリゴーについて

ソフトウェアやテンプレートが問題を解決するのではありません。人が問題を解決するのです。

それはどのような人たちでしょうか? それは、好奇心旺盛で、優れた質問をし、事実に基づいて判断し、リーダーとしての権限を与えられている人です。プレッシャーの中でも集中力を失わず、自信を持ってやるべきことをやる、このような問題解決型のリーダーは、お客様やケプナー・トリゴーの中で見つけることができます。ケプナー・トリゴーは60年以上にわたり、何千もの企業に何百万もの問題を解決する力を与えてきました。 メーカーが数百万ドルを節約し、証券取引所がITサービスを復旧させ、アポロ13号が宇宙から帰還するのを助けることができたのですから、私たちはあなたのビジネスを成功に導くことができるはずです。

ブログ画像1
重大インシデント・マネジメント - 変更が大失敗したときに備えるために
ブログ画像1
NYSEのシステム停止は計画が重要:インシデント・マネジメントのプレイブックに必要な10の要素
ブログ画像1
インシデントマネジメントにおけるKTプロセスの活用

お問い合わせ

お問い合わせ、ご意見、詳細確認はこちらから