最高のITインシデントマネジメントチームを結成するために

ブリティッシュ・エアウェイズは、基本的なヒューマンエラーが原因でした。 2017年5月27日に発生したIT障害についてその結果、400便以上のフライトがキャンセルされ、75,000人の乗客が足止めされました。技術者がデータセンターの電源を切断し、再び接続したところ、電力サージにより大きな被害が発生した。 航空会社への純コスト:なんと80百万ポンド (約$102万円)。

これは大金のように聞こえるかもしれませんし、実際そうなのですが Statistaによるとしかし、それは珍しいことではありません。86%の企業のダウンタイムの1時間あたりの平均コストは$300,000以上です。そして、その時間はすぐに積み重なっていきます。

のです。 2019年IT Outage Impact Study の調査によると、一般的な企業は過去3年間に10回のブラウンアウト(インフラやソフトウェアの性能が低下すること)または完全な停電を経験しています。 この10件の事故は、簡単に数百万ドルに上ります。

当然のことながら、80%の企業は、ITインフラのパフォーマンスと可用性が懸念事項のトップであると報告しています。半数以上の企業が、主要なニュースになるような壊滅的な障害の発生を心配しています。また、そのような事態が発生した場合、53%が「首をかしげる」「誰かが職を失う」と予想しています。

また、IT問題への対応を単純に自動化するのもいいですが、「インシデント対応には人が必要です。なぜなら、インシデント対応を成功させるには考えることが必要だからです。 Bruce Schneier氏は、自身のブログ「Schneier on Security」でを2014年に発表しました。必要なのは、役割と責任が明確に定義されたIT(大規模)インシデント管理チームであり、管理者、顧客、対象分野の専門家などと効果的にコミュニケーションをとりながら、実績のあるプロセスに従ってその責任を果たすように訓練されていることです。

停電にまつわる人間模様

ここに問題がある。 SAN調査の回答者の約半数(47%)が は、事件に効果的に対応するための最大の課題は、スタッフとスキルの不足であると答えました。確かに。 Uptime Instituteの2019年調査 は、ITスタッフの問題を危機と呼んでいます。回答者の61%(61%)が、人材の確保や採用に苦労していると答えており、これは前年の55%から増加しています。

というのも、60%の企業が、直近に発生した重大なダウンタイムは防ぐことができたと考えているからです。管理、プロセス、設定のいずれかが適切であれば、ダウンタイムは回避できたと考えています。コストが1億2,000万円以上かかったダウンタイムでは、この数字は74%に跳ね上がりました。

Uptime Institute JournalのチーフエディターであるKevin Heslin氏は、2019年9月に発表した記事の中で、「トレーニングへの投資を怠り、ポリシーを実施せず、手順が古くなるのを許し、資格を持ったスタッフの重要性を過小評価することで、経営者はダウンタイムにつながる状況の連鎖の舞台を作ってしまう」と書いています。 ブログ記事調査について

ITインシデントマネジメントチームの人員配置

インシデントとは、ITサービスの正常な運用を妨げる予期せぬ出来事のことである。 ITインシデントマネジメントは、ITサービスマネジメントの一分野(ITSM)で、サービスを早急に正常に戻すことです。多くのITインシデントマネジメントチームは、ITインフラストラクチャ・ライブラリ(ITI)などの確立されたITSMフレームワークを使用しています。ITIL®)または COBIT.また、長い時間をかけて確立された独自のベストプラクティスを組み合わせて使用している企業もあります。

ここでは、ITインシデントマネジメントに関わる代表的な職務を紹介し、そのための採用やトレーニングを行います。

(主要)インシデントマネージャー

これらの人々は「コントロール」される必要があります。何か問題が発生したときに、すぐに体制を整え、リーダーシップを発揮し、サービスを正常に戻す最終的な責任を負います。

  • 事故発生時の中央司令部としての役割
  • エンド・ツー・エンドでプロセスを促進する
  • リソースの関与の管理
  • 問題解決プロセスを推進し、SMEに特定の分析を任せる
  • インシデントレポートの作成
  • 重大事件のポストモーテムを行う
  • インシデントとソリューションの継続的なナレッジベースへのインシデントの追加
  • 指定されたインシデントマネジメントのワークフローに関わるすべてのプロセスを監督する
  • 指定されたSLAが達成されるように、インシデントが解決されることを保証する。

プロセスオーナー

この担当者は、インシデント対応プロセス全体に責任を持ち、ビジネスの目標に沿っているかどうかを確認するために必要に応じて修正することも含みます。

  • オペレーションが正常に機能するためのKPI(重要業績評価指標)の策定
  • KPIがビジネスゴールに合致していることを確認する
  • プロセスの設計、文書化、レビュー、および改善。
  • 継続的にインシデントから学び、包括的なビジネス目標を達成するためにプロセスのあらゆる側面を調整する

ティア1サービスデスク担当者

ティア1サービスデスクは、ユーザー、お客様、マネージャーなど、組織内の誰もがインシデントを報告する際の最初の窓口として、パスワードリセットやプリンタの問題など、最も一般的なIT問題や既知の問題に対する解決策について、基本的かつ広範な実務知識を持つ人で構成されています。

  • サービスレポートの初期データ収集、評価、診断を行う。
  • 障害が発生したITサービスを可能な限り早く復旧させるために即座に行動する
  • すぐに解決できない問題は、Tier 2サービスデスクにエスカレーションする
  • すべてのサービスリクエストと解決方法の記録
  • 報告した人に、その状況に関する情報を伝え続ける

ティア2サポート要員

このレベルには、通常、特定のシステムに関する高度な知識を持つ人が配置されています。一般的には、Tier 1の担当者が解決できない問題をエスカレーションした際にリクエストが発生します。

  • 特定のシステム、ソフトウェア、または技術に関する主題専門家としての役割
  • 問題を診断する
  • RCA(根本原因分析)の実施
  • インシデントを解決するために行われたすべての作業をナレッジベースに記録する
  • 事件が解決した場合、報告した人に解決を確認する
  • インシデントが解決しない場合は、Tier3やエンジニアリングにエスカレーションする
  • 専門知識の提供

結論

によると 2019年IT Outage Impact Study停電を回避するための機会損失のトップ2は、システムのキャパシティに近い状態を把握していないことと、重要なハードウェア、ソフトウェア、ネットワークコンポーネントのパフォーマンスがゆっくりと、しかし着実に低下していることを把握していないことでした。

これらは主に人の問題ですが、堅牢で拡張性のあるプロセス/プラクティスを導入し、ITスタッフがこれらを適用できるようにトレーニングすることで解決できます。インシデント管理チームを編成する際には、次のような質問をしてみてください。

  • ITキャパシティの構築が、それを管理するためのリソースの採用を上回っていませんか?
  • ITスキルを持った人材の採用や定着に苦労していませんか?
  • あなたのITトレーニングや教育プログラムは、予算不足に悩まされていませんか?

システムはますます複雑になっており、特にクラウドの登場により、障害は今後も続くと思われます。しかし、多くの障害は、実績あるベストプラクティスとプロセスに基づいて、適切なポジションに適切なスキルを持った従業員を配置することで回避でき、その他の障害はより迅速に修復することができます。

Kepner-Tregoeについて

Kepner-Tregoe社は、60年以上にわたり、問題解決とサービス・エクセレンス・プロセスにおける業界のリーダーとして活躍してきました。KT社の専門家は、ツール、トレーニング、コンサルティングを通じて、企業のインシデントおよび問題管理のパフォーマンスレベルを向上させ、企業の最も重要な問題に対応できる効果的なサービスマネジメントチームを構築しています。

ブログ画像1
メジャー・インシデント・エッセンシャルズ。コミュニケーションと効果的なアクション。助けて!どうすればいいの?
ブログ画像1
大規模インシデント管理 - 変更が大失敗したときに備えるために

私たちは以下の専門家です:

お問い合わせ

お問い合わせ、詳細、ご提案はこちらから