クラウドで根本原因分析を行うための5つのヒント

ここ数年、クラウドサービスは、企業の多様なビジネスニーズをサポートするためのIT機能を大幅に拡大してきました。 自前のソフトウェアはSaaSに、企業が運営するデータセンターはIaaSやPaaSに置き換わっています。 クラウドへの移行は、ビジネスの機能性、拡張性、資本コストの削減に大きなメリットをもたらす一方で、ユーザーにサービスを保証するための環境の管理は困難を極めます。

ITサービスマネジメント(ITSM)チームがしばしば悩む分野の1つに、症状、データ、影響が企業の境界を越えている場合に、問題とその原因を効果的に診断する方法があります。 クラウドで根本原因分析(RCA)を行うには、IT環境をこれまでとは違った角度から見て、分析に役立つツールとしてデータに強く依存し、パートナーを会話に加えるタイミングを知る必要があります。 ここでは、クラウドで根本原因分析を行うための5つのヒントを紹介し、理解を深めていただきたいと思います。

1.自動化の導入

クラウドサービスでは、通常、ソフトウェアをデバッグするためのソースコードにアクセスすることはできませんし、環境内のほとんどのデバイスに物理的に触れることもできません。 クラウド環境を監視・診断するためには、自動化を使いこなして「目と耳」の役割を果たすことが必要です。 ほとんどのクラウドサービスは、サービス内部で何が起こっているかを理解するのに役立つ独自の管理ツールを備えていますが、エンドユーザーに対するサービスの可用性やパフォーマンスを監視するためには、外部の監視・診断機能が必要になる場合があります。

モニタリングツールを使った調査の例としては

ユーザーがコアアプリケーションの極端な遅さの影響を受けています。週末に変更が行われたため、インシデントマネージャは当然その原因に注目します。

しかし、Citrixでロードタイムを見てみると、過剰な遅延はローミングユーザーに限られていることがわかります。明らかに、アプリケーションの変更を調査する必要はありません。

2.パートナーの活用

クラウドサービスを利用するということは、単に技術に依存するだけではなく、サービスを提供・管理するサプライヤー組織にまでサービス業務を拡大することになります。 また、診断やトラブルシューティングが必要な問題が発生した場合には、クラウド事業者がサポートする必要があります。 これらのリソースを活用するためには、これまでとは異なるいくつかのことを行う必要があります。 まず第一に(そしてほとんどの企業にとって最も困難なことですが)、トラブルシューティングはもはや個人の活動ではなく、チームの活動であることを認識することです。 チームに誰がいるのかを理解し、彼らとどのように関わっていくかを考える必要があります。次に、サービスレベルアグリーメント(サプライヤーとの正式な契約)を理解し、企業が必要とする応答性とリソースを提供する準備ができていることを確認することです。

パートナーは、お客様を支援したいと考えています。長時間にわたるインシデントは、お客様のユーザーに迷惑をかけるだけでなく、パートナーが障害を診断するのにも時間がかかります。パートナーエコシステム全体がより効果的に協力することで、すべての人にメリットがあります。

アベイラビリティーや数値的な指標だけに注目するのではなく、重大な障害が発生した場合には、その根本的な原因を説明するようにサービスプロバイダーに要求してください。サービスプロバイダーは、詳細で信頼できる説明を提供しなければならないことを知ることで、インシデント調査の扱い方に良い影響を与えることができます。

3.サービスインターフェースの管理

クラウドサービスは、「ブラックボックス」として扱われ、サービス提供者のみがサービス提供の詳細を知ることができます(お客様からは見えません)。 これは、IT環境の複雑さを大幅に軽減するという意味では良いことです。ITスタッフの中には、物事がどのように動いているのか見えないことに苛立ちを覚える人もいるでしょう。 重要なのは、サービスの範囲とインターフェースの管理に集中することです。つまり、何が入ってきて何が出てくるのか、サービス内で実行されることが期待される機能を理解することです。 サービスのインターフェースを管理するには、CMDBにどのような構成項目があるのか、何を監視する必要があるのか、SLAをどのように構成すべきかなど、企業の考え方を少し変える必要があるかもしれません。

4.サービスの構成要素を理解する

クラウドサービスの詳細な相互運用が見えないからといって、利用するサービスが何で構成されているかを基本的に理解する必要はありません。 ほとんどのクラウド・サービスには、基盤となる技術、外部サービス・プロバイダーからの接続、および他のクラウド・サービス(ホスティングやデータ・ストレージなど)への依存関係があります。 たとえ直接管理していなくても、これらの依存関係を(高いレベルで)理解することが重要です。 これらの依存性は、根本原因の分析プロセスで考慮する必要のある潜在的な障害の原因となります。

5.接続性を忘れずに

クラウドサービスを利用する際には、ユーザーや管理者がサービスにアクセスするための接続コンポーネントに特に注意を払う必要があります。 サービスが稼働していればいいのですが、アクセスできなければ問題が残ってしまいます。 モニタリングツールや診断ツールについても同様です。 サービスプロバイダーがホストしているツールしか利用できない場合、接続性に問題がある場合にはアクセスできない可能性があります。

クラウドサービスは、過去5年間のIT業界における最大の進歩の一つであり、これを利用する企業には多大な生産性とコスト削減の可能性をもたらします。 しかし、クラウドサービスを利用するためには、ITサービスマネジメントのスタッフは、問題が発生したときの管理、監視、修復の方法について、これまでとは異なる考え方をする必要があります。

Kepner-Tregoe社は、60年以上にわたり、問題解決と根本原因分析のプロセスと技術における業界のリーダーとして、企業のサービス・エクセレンスの達成を支援してきました。

ブログ画像1
根本原因分析会議を成功させるために
ブログ画像1
根本原因分析に関する5つの一般的な誤解
ブログ画像1
なぜ問題の根本原因を解決しない方が良いのか
ブログ画像1
企業が根本原因分析を無視する理由のトップ5

私たちは以下の専門家です:

お問い合わせ

お問い合わせ、ご意見、詳細確認はこちらから