在云中进行根本原因分析的5个提示

在过去的几年里,云服务大大扩展了可用于支持公司不同业务需求的IT能力。 自家开发的软件正在被SaaS取代,公司运行的数据中心正在被IaaS和PaaS产品取代。 虽然向云计算的转移在业务功能、可扩展性和降低资本成本方面带来了巨大的好处,但管理这些环境以向用户提供服务保证可能是一个挑战。

IT服务管理(ITSM)团队经常纠结的领域之一是,当症状、数据和影响超出公司的边界时,如何有效地诊断问题及其原因。 在云中进行根本原因分析(RCA)需要以不同的方式看待IT环境,更加依赖数据作为帮助分析的工具,并知道何时将合作伙伴引入对话以提供帮助。 以下是在云中进行根本原因分析的5个提示,帮助你更好地理解。

1.拥抱自动化

对于云服务,你通常不能接触到源代码来调试软件,你也不能实际接触环境中的大多数设备。 对云环境的监控和诊断需要成为一个熟练的自动化用户,作为你的 "眼睛和耳朵"。 大多数云服务都有自己的管理工具,可以帮助你了解服务本身的情况,然而,外部监测和诊断能力可能是必要的,以监测最终用户的服务的可用性和性能。

使用监测工具进行调查的一个例子是。

用户受到了一个核心应用程序极度缓慢的影响。周末实施了一些变化,事件管理者自然而然地被吸引到这一可能的原因上。

然而,看看Citrix中的加载时间就会发现,过度的延迟只限于漫游的用户。显然,没有必要调查对应用程序的修改!

2.充分利用合作伙伴

当你使用云服务时,你不仅仅是对技术的依赖--你正在扩展你的服务操作,包括提供和管理服务的供应商组织。 当遇到需要诊断和排除故障的问题时,云供应商应该在那里协助。 利用这些资源的优势需要你以不同于以往的方式做几件事。 首先(对大多数公司来说最具挑战性)是承认故障排除不再是一项个人活动,而是一项团队工作。 你需要了解谁在团队中,以及如何与他们接触。你需要做的第二件事是了解你的服务水平协议(与供应商的正式合同),以确保他们准备好提供公司所需的响应能力和资源。

合作伙伴有兴趣帮助你:一个持续时间长的事件不仅是对你的用户的滋扰,它也在消耗你的合作伙伴诊断故障的时间。整个合作伙伴生态系统的合作越有效,对每个人都越有利。

有时,这需要一个小小的合同推动:不要只关注可用性和数字措施,而是要求你的服务提供商为每一个重大故障提供一个根本原因。知道他们必须提供一个详细的、可信的解释,将影响他们对待事件调查的方式,使之变得更好。

3.管理服务接口

云服务旨在被视为 "黑箱",提供服务的细节只有服务提供商才知道(从你的视线中模糊不清)。 这可能是一件好事,因为它使你的IT环境不那么复杂。对于一些IT工作人员来说,看不到事情是如何运作的会让人感到沮丧。 关键是要学会专注于管理服务的范围和接口--了解什么是进去的,什么是出来的,以及期望在服务中执行的功能。 管理服务接口可能需要改变你的公司对CMDB中哪些配置项目的概念,哪些需要被监控,以及SLA应该如何结构化。

4.理解服务是由什么组成的

仅仅因为你看不到云服务的详细互操作,并不能消除对你使用的服务是由什么组成的基本了解。 大多数云服务包括对底层技术的依赖,来自外部服务提供商的连接和其他云服务(如托管或数据存储)。 即使你不直接管理这些依赖关系,也必须(在高层次上)了解这些依赖关系是什么。 它们仍然是一个潜在的故障原因,需要在根本原因分析过程中加以考虑。

5.不要忘记连接性

在使用云服务时,你需要特别注意使用户和管理员能够访问服务的连接组件。 如果服务已经启动并运行,这很好,但如果你不能访问它,你仍然有一个问题。 同样的提示也适用于监控和诊断工具。 如果你唯一可用的工具是由服务提供商托管的,那么在出现连接问题时你可能无法访问它们。

云服务是过去5年中IT行业最大的进步之一,为使用它们的公司提供了巨大的生产力和成本节约潜力。 它们确实需要你的IT服务管理人员以不同的方式思考如何在问题发生时进行管理、监控和修复。

60多年来,Kepner-Tregoe一直是解决问题和根本原因分析过程和技术的行业领导者--帮助企业实现卓越服务。

博客图片1
构建成功的根本原因分析会议
博客图片1
关于根本原因分析的5个常见错误概念
博客图片1
为什么不解决问题的根本原因可能会更好?
博客图片1
公司忽视根本原因分析的五大原因

我们专注于:

联系我们

如需咨询、了解详情,或提出建议