客户
一家主要的全球投资、财富和服务管理公司以及世界上最大的资产托管机构之一,希望通过对影响客户的重大事件进行更好的根源分析来提高其IT稳定性。
挑战
IT问题是通过一个分散的个人小组来处理的。一旦一个影响客户的重大事件被解决了,找出事件根本原因的调查会被分配给了一个技术人员。此技术人员会进行调查,确定根本原因和采取纠正措施。这过程得到一群 "问题管理员 "的支持,但缺乏明确的战略或统一的方法,持续改进是不可能的。
解决方案
在基础设施组织内实施了一个试点项目,以改善整个根源分析(RCA)过程,最终目标是提高稳定性。所有问题管理员都接受了Kepner-Tregoe方法的培训,大大提升了他们的技能。在接受培训后,他们接受了一位经过认证的KT教练的内部辅导。同时,该小组被重组为一个集中的、由真正的问题管理员组成的职能部门,现在负责处理技术小组内的所有RCA。一旦开始进行根本原因调查,问题经理们就会使用KT问题分析来积极推动这一过程,与主题专家(SME)合作,找到根本原因并确定纠正措施。此外,还引入了一个新的治理模式,包括报告和高级管理层对该过程的所有权。目标是在第一优先级事件的整体稳定性方面至少有20%的改善,这是以组织中高影响事件的数量来衡量的。
成果
基于问题经理迅速让中小企业参与根本原因调查,并通过严格的根本原因分析方法加以强化,从而得出更准确的调查结果(从而确定并实施正确的纠正措施),该项目在整体稳定性方面有了显著改善。
对基础设施团队在稳定性方面的实际和可持续改进的能力的信心,使组织的最高层对这一重大成就更加认可。最终的结果是问题数据的质量有了很大的提高,减少了从根本原因到重大事件的时间,从而大大增加了IT稳定性。
在试点项目结束时,高级IT管理层批准将这种在基础设施领域试点的方法推广到IT环境的其他部分。
记分卡
- 76% 减少完成RCA的平均天数
- 38% 减少重大撞击事件的发生
- 主动识别和预防超过10,000个潜在问题
- 在组织的最高层对这一重大成就的认可