潜伏在IT支持中的潜伏鳄鱼

作者:史蒂夫-怀特

是什么让羚羊在夜里睡不着?可能是想到潜伏在河流和水坑中的鳄鱼,等待着毫无征兆地扑过来。聪明的瞪羚会避免在兽群的边缘徘徊,并希望鳄鱼的数量不多。

保持在羊群的中间位置对生存是很重要的。在IT支持领域,当一个新的软件发布时,我们认识到这种生存本能的影响。早期采用者会装上它,玩玩它,但很少有人会立即把它作为核心业务工具。聪明的瞪羚会等到水面被测试过之后再使用。聪明的瞪羚也知道要跟上,不要成为落伍者。颟顸的瞪羚处于危险之中,它们使用的是供应商已经停止支持的关键任务应用程序。

如果没有警惕性,就很容易受到伤害,与群体分离。在没有明确风险管理的情况下勇往直前,会增加脆弱性:把新发布的未经测试的代码装到生产设备上,或把未经测试的硬件装到生产环境中,鳄鱼就会开始围攻。不更新系统和使用外来的解决方案会导致落后:不再被支持的软件或硬件,是一分钱一分货的做法。此外,系统整合硬件和软件,使其成为独一无二的,并改变核心代码使其成为独一无二的,会使你失去 "群 "的保护。异国的负载或配置文件使系统超负荷工作,或为特定的应用对软件和固件参数进行极端调整,都会增加脆弱性。

图1说明了这些危险的行为如何使IT组织变得脆弱。一旦站在牛群的边缘,就很容易被潜伏的潜在鳄鱼挑走。


图1: 使组织脱离群体的风险行为

不幸的是,仅仅是处于牛群的中间位置--使用标准的配置和软件,保持最新和在性能容限内--仍然不能保证生存。 减少饥饿鳄鱼的数量是生存的真正关键。

从我们作为顾问的角度来看,我们所看到的最糟糕的IT事件,都是由未诊断的问题和未完成的改变造成的。将未诊断的问题以正确的方式组合在一起,可以创造奇迹--如果是坏的方式,就会导致灾难性的失败。

例如,一家全球财富500强公司,像其他人一样使用IT系统来接收订单、计划生产、安排交货和开具当前硬件和流行软件的发票,却在大约三周内失去了知道生产、发货和发票的能力。这一事件没有被媒体报道,因为从公关的角度来看,这一事件处理得很好,公司继续蓬勃发展。然而,在三个星期里,鳄鱼在瞪羚的中间,以不协调的一致行动使核心IT系统崩溃。

虫害控制-减少鳄鱼的数量-减少它们无意识地密谋伤害你的机会。但它们潜伏在哪里呢?它们在你未被诊断的积压的IT问题中等待着扑杀。

你拥有的未诊断的IT问题的数量越多,一个、两个或许多问题以某种有趣的方式互动的机会就越大,以一种无辜的变化,来 使你的系统崩溃.与那些没有诊断出问题的组织相比,找到IT问题根源的组织在数学上有更好的机会实现IT稳定。既是问题,又是 潜伏 (你知道它们--它们在某个队列中,在大量不受控制的变化中,或者隐藏在糟糕的内部管理中)和 潜在的 (目前不影响任何东西)最终合谋造成了意想不到的损害。

案例研究。 问题会随机出现在一起,造成长时间的IT中断。在A公司收购了一个竞争对手之后,产品线需要进行整合。A公司与供应商合作,指定了所需的硬件和软件,并制定了一个项目计划来实施这一变革。当时不知道的是,在积压的未诊断的问题中,目前的生产系统有四个现有的故障,这些故障都没有造成问题,所以没有被支持人员所注意。这些问题包括

  • 一个缓慢的数据库队列处理工作(现在已经存在了6个月)。
  • 对其他系统的共享数据存储设备的逻辑输入/输出缓慢,与此系统没有明显关系(几周前在基础设施的另一部分记录的)。
  • 对数据存储互连的固件升级没有正确应用(几周前进行的)。
  • 数据库监测工具偶尔会停止记录(持续了一年)。

这些问题已经被记录下来,等待供应商或工作人员采取行动。

当软件升级和所需硬件完成后,一切都很顺利。系统恢复了生产,但没有人检查预期的性能开销。这是一条非常大的鳄鱼。

图3

对系统增加的负荷是顺利进行的,一次一个工厂,以确保每个步骤都得到控制。但是在开始这个过程的两周后,一个 临界点 这时,系统从自由流动转为湍流--从处理一天的工作需要20小时到每天60小时。其后果是迅速而严重的。企业经理们开始大喊,企业正在死去。他们将工厂与批量工作割裂开来,将生产运行的时间从每天重新安排到每周一次。一些仓库不得不根据经验发明客户可能会订购的产品,只有大量员工的英勇行动才能使企业在没有IT系统的情况下继续运行。

只有在牺牲两周的发票的情况下,才有可能恢复到以前的配置。我们决定使用新的配置继续前进。在这个过程中 潜在的潜伏鳄鱼被发现。并非所有的鳄鱼都是立即恶意的--数据库监控工具在两周前就已经停止了,因此解决问题的努力因缺乏这些信息而延长。潜伏的鳄鱼一直在那里等待,没有被观察到,在一个单一的、灾难性的事件中一起出现。

如何生存

显然,我们可以从错误中吸取教训。保持在IT人群的中间位置是一个需要做出的战略性IT决定。但是,减少未诊断的故障对你的阴谋的可能性,却很少以足够的力度来解决。在你的IT支持积压中,有多少未诊断的案例?如果你正在快速有效地清除它们,如果你有计划处理临时修复和真正难以解决的问题的纠正措施,那么一切都很好。

大多数支持组织积压了大量的问题,或者在没有找到根本原因的情况下就例行公事地结案--用鳄鱼衬托他们的未来。

在我们与最初有大量积压工作的客户的合作中,我们与他们一起对当前的状态进行分析,计算预期节省的时间和金钱,确定杠杆点,并完成一个结构化的和管理良好的高质量问题处理流程的实施。这就建立了一个更好的支持组织,拥有更有效的工作流程和更多积极性高的工程师。此外,还有更少的潜伏鳄鱼在等着、看着并准备扑过来。

博客图片1
网络安全如何改变事件管理的面貌
博客图片1
重大事件管理--当变革出现可怕的错误时做好准备
博客图片1
重大事件管理。不要等着计划你的重大事件应对措施
博客图片1
组建一流的IT事件管理团队

我们是以下方面的专家:

联系我们

如需咨询、了解详情,或提出建议!