ITシステムで発生した問題の復旧スピードは、ITプロバイダーとしてビジネス価値を提供する上で最も重要な要素の1つです。今回は、その解決スピードを向上させるための5つの方法をご紹介します。
1.役割、責任、プロセス、方針、測定基準を明確に定義する。
計画を立てることは有効です。その場しのぎ」は、問題解決に最適なアプローチではありません。ITを迅速に修正する必要がある場合(重大インシデント、緊急事態、危機管理など)、自分が何をすべきか、そして何をすべきでないかを知り、他人のつま先を踏まないようにすることが決定的に重要です。役割と責任を理解することは素晴らしい第一歩ですが、それだけでは必ずしも十分ではありません。プロセスや手順を明確に定義することで、活動を迅速に集中させ、重大な事故がカオスに陥るのを防ぐことができるのです。
例えば、重大な事故が発生したとき、あらかじめ決められた適切な行動をとることです。
- 重大インシデントチームの全員に「戦争部屋」(仮想および/または物理的)に行ってもらう。これには、ウェブ会議を開始し、少なくとも1つの電話会議「ブリッジ」を開き、ホワイトボードを使い、その他の有用なコラボレーションツールを使用することができます。
- 重大インシデントマネージャーは、インシデント管理システムに新しいマスターチケットを開き(後に、関連するすべてのインシデントがこの新しいマスターレコードにリンクされます)、重大インシデントプロセスの時計が動き始めます。
- サービスデスクに連絡して、ヘルプラインに新しい発信メッセージを作成してもらい、ユーザーが問題について苦情を言うために電話をかけてきたときに、現在進行中のインシデントについてすぐに通知してもらうようにします。そうしないと、サービスデスクに電話が殺到する可能性があります。
- サービスデリバリーマネージャー(または同等の役割)に警告し、問題を認識させ、それが対処されていることを知ることができるようにします。
- 問題を十分詳細に記述し、文書化することによって、問題を調査・診断する。
- チームが使用するために訓練されたベストプラクティスのテクニックを使用して、事故の原因を見つける(RCA、ヒント#5を参照)。
- 重要インシデントの原因が特定された後、修正(一時的または恒久的な解決)を適用します。理想的には、必要に応じて緊急変更管理プロセスを適用することです。
- インシデントの時計を止め、確立されたサービス契約への準拠を確認します。
- ユーザー、サービスデリバリーマネージャー、その他の関係者にインシデントの解決方法を伝える。
- インシデント解決後7日以内に、学んだ教訓を文書化し、明確に図式化した「インシデントマップ」を用いて「ポストモーテム」を実施すること。
- 今後、同様の事故を防ぐために、積極的に改善点を探してください。
2.ナレッジマネジメントの活用
社員が適切なスキルを身につけていれば、インシデントをより迅速に解決することができます。これにより、コール待ち時間が短縮され、可用性が向上し、合意されたサービスレベルを満たすことができます。優れたナレッジマネジメントシステムは、スタッフが必要な情報を「オンデマンド」で入手できるよう支援します。
ナレッジマネジメントとは、情報や経験を適切な場所、適切なタイミングで共有するためのプロセスです。優れたナレッジ・マネジメント・システムは、専門家の頭の中にあるすべての情報を取り出し、それらの解決策を検索可能なデータベースに格納し、オンラインでアクセスできるようにします。理想的には、インシデントチケットにいくつかのキーワードを入力すると、その問題に対する解決策を提案する関連ナレッジ記事が自動的にいくつか引き出されるようにします。
インシデントツールとプロセスに統合されたナレッジマネジメントシステムは、経験の浅い従業員を最小限のトレーニングと努力で優秀な人材に変えることができます。チームの全員がこのアプローチを利用すれば、インシデントの解決時間を短縮し、顧客満足度を向上させながら、より少ない人員でより多くのことを行うことができます。
3.使いやすい統合システムの導入
ユーザーフレンドリーなシステムは、ITスタッフが主要なシステム(インシデントチケッティングシステムなど)にデータを入力するのを容易にする。複数のソースからの情報は、データウェアハウス、オンデマンドレポート、リアルタイムダッシュボードの形で、企業全体でシームレスに共有される必要があります。以下の技術を1つの全体的なシステムに統合することが、ベストプラクティスです。
- インシデント・問題管理発券システム
- イベント管理/監視/アラートツール
- 変更・リリース管理システム
- ナレッジマネジメント・ソリューション・データベース
- プロセスワークフローエンジン
- 構成管理データベース(CMDB)
- 資産管理データベース
- アセットと "CI "のディスカバリーツール
- サービスレベル合意書
- オンラインサービスカタログ
- ソフトウェア配布ツール
- レポーティングとダッシュボード
4.重要サービスマトリックスの作成と自動化によるモニタリングの活用
重要なサービス、システム、アプリケーションを定義し、クリティカル・サービス・マトリックス(CSM)に文書化することが重要です。CSMは、基本的に、組織のすべての重要な技術の優先順位付けされたリストです。また、CSMには、これらの重要なシステムを監視・管理するために必要な、関連するすべての重要な情報を簡潔に文書化する必要があります。
CSM は、優先度の高いイベントやインシデントを検出するための監視および警告システムを構成する際に非常に役立つガイドとなります。CSM を完了したら、次のステップでは、CSM に記載されている主要な技術を監視する自動警告システムをセットアップします。何か問題が発生した場合、監視システムが自動的に問題を検出し、組織内の適切な担当者に報告します。この警告をインシデント発券システムに統合するのが望ましいでしょう。理想的には、既知の潜在的なインシデントがすべて自動的に修正され(スクリプトによる回避策、イベント相関、人工知能などを使用)、人間の介入を必要としないようにすることです。
5.トラブルシューティングのテクニックとクリティカルシンキングスキル
効果的なトラブルシューターや問題解決者になるためには、優れた批判的思考能力が必要です。これには、次のようなものが含まれます(ただし、これらに限定されません)。
- 複雑な問題に対する根本原因分析(RCA)
- ビジネスとオペレーションの優先順位に沿った体系的な意思決定
- 優先順位の高い課題を特定し、解決するための計画を立てる能力
- リスクと機会を理解し、主体的に管理する
- 必要な情報を得るために適切な質問をし、意味のあるインサイトを導き出す。