监测反复出现的问题。有效运营的一个关键方面

多年来,进步的IT运营部门一直在通过挖掘其根本原因来解决重复性事件,并永久解决实际导致该问题的根本问题。这导致了服务可用性的改善,通过永久修复问题而不是简单地恢复服务。

在许多组织中,需要花费大量的精力来进行必要的分析以找到根本原因,结果是只关注更大的问题:那些对外部客户可见的问题或可能使企业陷入困境的问题。如果有可能在导致失败之前解决反复出现的问题,那会怎样?结构化的问题分析技术与增加事件管理和监控的范围相结合,可以帮助企业更有效地预防事故。

大多数监测工作的重点是识别故障和性能下降,其中预测一个如果不解决可能导致事故的条件并永久解决它,实际上可以从一开始就防止事故的发生。

常见的监测做法

有许多共同领域的组织在监督。

  • 网络和电路状态(向上/向下)和流量
  • 负载平衡器操作
  • 服务器和虚拟服务器功能
  • 应用性能
  • 安全漏洞
  • 数据中心环境(温度、电力等)。

事件管理,像主动问题管理一样,由于无法关联太多的信息,所以范围有限,现在许多工具集都有数据聚合和运营智能功能。这些功能允许一个组织监测几乎所有提供可以收集的数据的东西。考虑到以下的好处。

  • 汇集网络上正常的数据流量模式,以便通过使用人工智能检测出这些模式的变化,识别潜在的服务漏洞。
  • 根据服务器内存、磁盘和CPU利用率跟踪应用程序的行为,以了解正常范围,提供在影响性能之前识别由于代码变化而产生的潜在影响的能力。
  • 监测磁盘和表空间的使用情况,以便在感觉到影响之前解决增加的数据库大小(在虚拟环境中,这可以自动管理,防止任何潜在的事件发生)。

这里的目标是收集传感器和监测工具所能提供的关于操作环境的尽可能多的信息,然后结合使用人工和操作智能工具来识别预期结果的变化。结合一个好的事件管理工具,然后可以对这些事件进行适当的分类。

  • 危急:该变化表明一个关键系统发生了故障
  • 主要的:变化表明服务的一个特点/功能的损失
  • 次要的:有一个性能或其他功能的下降
  • 警告:没有发生退化或停电,但正在接近一个阈值。立即干预可能会减轻运营事故
  • 信息性:发生了与正常操作不同的变化,但还没有严重到引起关注的程度。

通常情况下,关键和重大警报将触发正式的(重大)事件管理程序,如果它们是广泛的或重复的,最终将进行根本原因分析和修复。这是反应性的问题管理,在消除昂贵的重复性事件方面效果很好,然而,处理重复性的轻微、警告和通知性警报提供了在第一次事件发生之前纠正原因的机会。

许多组织面临的挑战在于是否有能力同时处理多个问题。当一个组织正在努力及时解决关键和主要的问题时,扩大范围的想法会受到很大的嘲讽,然而在今天的运营环境中,为了转移运营中断的成本,达到这个水平是至关重要的。

关键在于将结构化的问题解决技术与使用机器学习和人工智能来记录和分类问题的能力结合起来,这样IT工程师就能更快地集中精力解决问题,并且有更好的数据流入分析过程。Kepner-Tregoe技术,结合监控程序的扩展,可以帮助一个组织实现这一目标。

入门

实现这一目标是一个反复的过程。

步骤1:首先,一个运营组织需要能够对关键和重大事件做出成功的反应。只要有可能,就需要有自动反应来恢复服务。只有当这一方法失败时,才有必要通知适当的团队。自动响应不仅能更快地恢复基本的服务问题,而且还能带来更多的时间来解决根本原因并永久地消除更大的问题(注意:在某些情况下,做出改变以减轻问题的自动响应是第一步,而永久解决可能是更长远的目标)。

第2步。 一旦关键问题被 "控制",收集来自次要警报、警告和信息警报的数据应被用来建立模式。这时,使用运营情报和其他自动分析工具的能力可以帮助识别潜在的重复性问题。虽然可能没有必要立即解决它们,但应该把它们作为问题记录下来,进行分析和处理,既要有临时的创可贴,也要有自动化的创可贴,以防止它们导致事故的发生。在创可贴不成功的情况下,应该通知适当的团队来解决这个问题。 在重大事件发生之前.

步骤3:第三步,也是最后一步,是为那些有创可贴的问题寻找永久性解决方案。这意味着要确定原因,使用结构化的问题分析技术,并永久解决那些从财务角度来看有意义的问题。没有必要解决所有的问题:如果对一个小问题的自动化反应可以防止事件的发生,那么自动化就是所需要的。

归根结底,这项工作的价值在于利用现在可用的工具来扩大监控和事件管理实践的范围,然后利用这种扩大来防止昂贵的事件发生。这种水平的分析和响应不仅可以保护组织的收入流,还可以确保面对客户的操作的信心。

关于Kepner-Tregoe

60多年来,Kepner-Tregoe一直是问题解决和卓越服务流程的行业领导者。KT的专家们通过工具、培训和咨询帮助公司提高他们的事件和问题管理绩效水平--导致高效的服务管理团队随时准备应对贵公司最关键的问题。

要了解更多关于Kepner-Tregoe如何在你的组织中设置这一功能。

博客图片1
事件和问题--同一个硬币的对立面
博客图片1
问题解决了!应对反复出现的缺陷
博客图片1
"它回来了"。反复出现的问题的窘境
博客图片1
绘制支持组织的主动问题管理路径图

我们是以下方面的专家:

联系我们

如需咨询、了解详情,或提出建议!