是什么让羚羊在夜里睡不着?可能是想到潜伏在河道和水坑中的潜伏鳄鱼,等待着毫无征兆的扑击。如果你的羚羊生活不是每天只去一次水坑,或者只在漫长的迁徙过程中过河呢?如果是在鳄鱼出没的河道中间24*7地行走呢?那肯定会让你保持警觉,但又不舒服,只能在很短的时间内不安地睡觉。
如果生活在河里是你的生活,那么作为一只羚羊,让鳄鱼的数量尽可能地少,不要因为在鳄鱼群的边缘徘徊而暴露自己被抓的机会,这符合你的利益。
牛群的本能
处于羊群的中间位置对生存很重要。当一家公司发布一个新的操作系统时,我们认识到这种生存本能的影响。早期采用者会装上它,玩玩它,但很少有人会立即把它作为核心业务工具。聪明的瞪羚会等待,直到水面首先被测试。聪明的瞪羚也知道要跟上,不要成为落伍者。我们知道有一些应用程序仍在关键任务的生产中,而供应商在多年前就停止了对其的支持。
人们是如何意外地发现自己处于兽群的边缘的?
在没有明确的风险管理的情况下贸然前进。
- 将新发布的和未经测试的代码加载到生产设备上
- 在生产环境中安装和调试未经测试的、刚刚发布的硬件
- 在未经测试的配置上加载生产工作负载
- 在猎枪式故障排除过程中的紧急改变控制
不改变目前的系统,就会落后。
- 使用不再被支持的核心业务软件
- 在生产中使用不支持的硬件
配置外来的解决方案。
- 系统集成硬件和软件,使系统成为独一无二的。
- 改变核心代码,使系统独一无二
配置外来的负载或配置文件。
- 系统过度劳累,超出其能力范围
- 为特定的应用对软件和固件参数进行极端调整
- 达到一个饱和点,系统从线性流动转为湍流
图1
一旦你站在兽群的边缘,你就会更容易被潜伏的潜伏鳄鱼挑走。
虫害防治
当阿拉斯加税务局的一名计算机技术员在进行日常维护工作时重新格式化一个磁盘驱动器时,发生了一个糟糕的小奇迹。技术人员不小心删除了一个石油资助账户的申请信息--这是阿拉斯加居民最大的福利之一--并错误地将备份驱动器也重新格式化。
直到该部门发现其第三道防线--备份磁带--无法读取,人们才看到了希望。如果备份磁带能正常工作,那就不会有什么故事了--在这个案例中,没有提到他们是否已经知道备份系统存在任何已知的、尚未解决的问题--但是,你是否检查过可以恢复数据? 这次失败使他们损失了 $200,000 美元的额外费用和未知的声誉损失。 是否有一只潜伏的鳄鱼在等着你?
仅仅处于羊群的中间位置--做其他公司正在做的同样的事情,使用标准配置和标准软件,保持更新并在性能容许范围内--仍然不能保证生存。
作为KT顾问,我们看到的非常糟糕的IT事件是一些潜在的、可见的、未被诊断的问题和完成得不好的变化的组合,它们合谋造成了一个奇迹。通常情况下,奇迹被认为是一种惊人的或奇妙的发生。我推测,把未诊断的问题集中在一起,导致灾难性的失败,也可以是奇迹,只是方式不好。
让我以一家财富500强的全球公司为例,他们像其他人一样使用IT系统:在当前的硬件和非常流行的软件上接收订单、计划生产、安排交货和开具发票。IT部门在大约三周内失去了知道生产、发货和开发票的能力。这一事件没有被媒体报道,因为它被处理得很好,公司继续蓬勃发展。然而,在这三个星期里,鳄鱼在瞪羚的中间,以不协调的一致行动使核心业务的IT系统瘫痪。
我们能预测潜伏的鳄鱼把你的生意干掉的可能性吗?如果你是一只走在河中央的羚羊,周围有其他的羚羊,有的在前面,有的在后面,有的靠近河的左岸,有的靠近右岸,你是喜欢走在有很多鳄鱼的河上,还是喜欢走在很少的鳄鱼上?
通过控制害虫来减少鳄鱼的数量,只会减少它们无意识地合谋伤害你的机会。我们在哪里可以找到这些鳄鱼呢?... 在你未诊断的积压 IT 问题中。
你拥有的未诊断的IT问题的数量越多,一个或两个或许多问题以某种有趣的方式与一个无辜的变化相互作用,使你的系统崩溃的机会就越大。一般来说,那些能够找到IT问题根源的公司,在数学上比那些有大量未诊断问题的公司有更好的IT生存机会:这些问题既是潜伏的(你知道它们--它们在某个队列中,或者它们在大量不受控制的变化中,或者隐藏在糟糕的内部管理中),又是潜在的(目前没有影响生产)。
让我具体说说有哪些问题会随机出现,导致长时间的IT中断。
假设你正在改变你的基础设施计划处理的产品数量,因为你收购了另一家公司,需要整合他们的产品线。
你与供应商合作,指定所需的硬件和软件,并制定了一个项目计划来实施变革--变革管理部门已经加入进来,一切都很好。
你不知道的是,在你积压的未诊断的问题中,深埋着生产系统的四个故障,这些故障都没有造成生产问题,所以在支持人员的脑海中没有出现。
- 在过去的六个月中,一个缓慢的数据库队列处理工作
- 在其他系统上对你的共享数据存储设备的逻辑输入/输出缓慢,与这个系统没有明显的关系--这是几周前在基础设施组织的另一部分记录的问题。
- 几个星期前,数据存储互连的固件升级没有正确应用。
- 过去一年里,数据库监控工具偶尔会停止记录
这些问题已被记录下来,它们正等待着供应商或你的员工采取一些行动。
然后你加入软件升级和所需的硬件,以提高系统的性能,给你一些处理开销。这个变化(从他们的变化管理角度来看)是完美的;系统恢复了生产,但是没有人检查应用这个变化预计会产生的性能开销。这是一个非常大的鳄鱼。
然后,你将增加的负荷一次一次地添加到系统中(只是为了确保每一步都是好的)。在开始这个过程的大约两周后,达到了一个 "临界点",系统从 "自由流动 "翻转到湍流--从处理一天的工作需要20小时到每天60小时。企业经理们开始大喊,企业正在死去。你必须将许多工厂从批量工作中分离出来,将生产运行的时间从每天重新安排到每周一次。一些仓库不得不根据经验发明客户可能想从以前的订单中订购什么,业务只能靠大量员工的英勇行动来维持,他们在没有你的系统的情况下经营业务。
只有当企业准备损失两周的发票时,才有可能恢复到以前的配置。我们决定使用新的配置继续前进,在这个过程中发现了潜伏的鳄鱼。
并非所有的 "鳄鱼 "都是立即恶意的--数据库监控工具在两周前就已经简单地停止了,因此解决问题的工作因缺乏该信息而延长。
潜伏的 "鳄鱼 "就在那里,等待着,不被观察到,汇聚成一个有可能是灾难性的事件。
如何生存
显然,我们可以从别人的错误中吸取教训。留在IT人群中间是你和你的客户要做出的一个战略性的IT决定:要么保持安全,要么过一个 "有趣 "的生活。
但是,关于减少未诊断的故障对你的阴谋的可能性?在你的IT支持台的积压中,有多少未诊断的案例?如果你正在快速有效地清理它们,如果你有计划处理临时修复和真正难以解决的问题的纠正措施,那么一切都很好。
如果你有大量的积压问题,或者只是为了保持积压的可控规模而例行关闭他们最古老的案件,你就是在用鳄鱼来衬托你的未来。
在我们与最初有大量积压案件的客户的合作中,我们与他们一起对现状进行分析,计算预期节省的时间和金钱,确定杠杆点,并完成一个结构化的和管理良好的高质量案件处理流程的实施。他们不仅有了一个更好的支持组织,有了更有效的工作流程和更积极的工程师,而且晚上睡得更安稳,因为他们知道有更少的潜伏鳄鱼在没有警告的情况下等待着扑上来。
关于Kepner-Tregoe
Kepner-Tregoe是问题解决的领导者。六十多年来,Kepner-Tregoe通过更有效的根本原因分析和决策技能,帮助全球数以千计的组织解决了数百万个问题。Kepner-Tregoe与各组织合作,通过解决问题的培训、技术和咨询服务,大大降低了成本,提高了运营绩效。