为什么云服务使问题管理更加困难,也许也更容易一些

世界各地的公司和政府实体已经发现,云服务可以使他们的组织在应对业务变化时更快、更可扩展、更灵活。有了动态的基础设施环境,如基础设施即服务(IaaS)和平台即服务(PaaS),以及各种各样的SaaS软件和第三方产品,在云中分布和运行,公司能做什么以及他们能做多快似乎没有限制。虽然速度和技术敏捷性对必须快速运作的业务功能非常有利,但对于负责在问题扰乱业务运作时找出 "发生了什么 "和 "为什么会发生 "的问题管理者来说,它们会造成严重的问题。

过去的工具和技术不足以应对云计算的速度

长期以来,问题管理者一直依赖两组核心的运营数据来帮助他们诊断问题的根源:依赖性数据和变化数据。有了云服务,问题管理者仍然需要依赖性和变化数据,但现在他们需要这些操作数据是最新的、完整的和准确的--一直如此。他们还需要操作数据的发展,并与你的IT环境的每一个变化保持同步;因此,如果云服务启动了一个新的实例或重新配置了组件的依赖关系,那么你必须在它发生时知道它。

在过去的内部基础设施和安装的软件包的世界中,变化相对不频繁(每天、每周、每月),所以依赖性和变化数据并不经常变化。在云服务中,变化是持续进行的,依赖关系可能只存在几秒钟,然后作为正常云优化的一部分被重新配置。如果发生事故导致中断,那么事故发生时的环境 "快照 "可能只存在几分之一秒的时间。维护变更和依赖性记录的传统方法无法现实地扩展到捕捉如此快速变化的环境。

作为问题管理工具集的云管理工具

唯一能够捕捉到云服务中发生的变化的系统是云服务本身内置的管理工具,并启动了变化。传统的配置管理数据库(CMDB)和IT服务管理(ITSM)系统中的变更记录库可以帮助解决整合和大局问题,但云管理工具拥有现代问题管理所需的细节。问题管理者必须了解云服务的运行速度与传统的IT环境完全不同,在这些环境中诊断问题的根源需要与一套新的工具和数据进行互动。

一个有用的比喻是静止画面的照片和运动图像序列之间的区别。问题管理者习惯于盯着静止的图像,寻找隐藏的细节,但他们并不习惯运动中的图像的复杂性。CMDB和变更记录为问题管理者提供了序列中一般区域的指针,但需要一套不同的工具来隔离单个帧和对象,以形成对正在发生的事情的真正理解。云管理工具的作用基本相同。一旦问题管理者能够确定事件发生的时间,他或她就可以专注于那段时间发生的事情,以及什么行动/活动引发了某些事件的发生。

现代能力使一些问题管理活动成为不必要的

云服务领域的一个有希望的发展是自我修复能力的成熟。当云管理工具发现问题发生时,它们越来越能够收集数据并重新配置服务,以保持连续性并避免对用户造成干扰。这种服务弹性的增加使许多ITSM从业人员质疑,了解一个自行解决的问题的根本原因是否一直是必要的。

随着机器学习和人工智能能力被添加到公司的ITSM能力套件中,许多传统的分析过程,如问题管理,在未来几年内可能会发生重大变化。这些技术不太可能消除问题管理这一基于人的过程,而是机器学习(ML)和人工智能(AI)将提供一套增强的、更强大的工具和新信息,使问题管理者更有效和高效,前提是他们有能力解释数据并将原始数据转化为可用信息,为他们的RCA和调查提供信息。云服务可能会使问题管理变得更加困难,但其他技术会抵消这种影响,使其变得更容易一些。

关于Kepner-Tregoe

60多年来,Kepner-Tregoe一直是问题解决和卓越服务流程的行业领导者。KT的专家们通过工具、培训和咨询帮助公司提高他们的事件和问题管理绩效水平--导致高效的服务管理团队随时准备应对贵公司最关键的问题。

博客图片1
工业环境中的问题管理和物联网
博客图片1
问题管理。何时开始?
博客图片1
如何成为事件和问题管理的超级明星
博客图片1
衡量ITIL环境下的问题管理质量,第一部分

我们是以下方面的专家:

联系我们

如需咨询、了解详情,或提出建议!