一个人为错误--一个非常基本的错误--导致英国航空公司遭受损失 2017年5月27日的一次IT故障迫使它取消了400多个航班,导致75000名乘客滞留。一名工程师切断了一个数据中心的电源,当它被重新插上时,电涌造成了重大损失。 航空公司的净成本:高达8000万英镑 (约$102百万)。
这听起来可能是一大笔钱,而且确实如此,但 根据Statista的数据,这并不罕见。86%的企业每小时的平均停机成本超过$30万。而且这些时间很快就会增加。
ǞǞǞ 2019年IT中断影响研究 发现,在过去的三年里,典型的组织经历了10次停电(基础设施或软件的性能下降)或彻底的停电。 这10起事件的金额加起来容易达到数百万美元。
毫不奇怪,80%的公司报告说,他们的IT基础设施的性能和可用性是他们最关心的问题。一半以上的公司担心会发生破坏性的故障,以至于会成为主流新闻。如果发生了这样的事件,53%的人预计会有麻烦,有人会失去工作。
尽管简单地对IT问题进行自动化响应是件好事,但 "事件响应需要人,因为成功的事件响应需要思考,"写道。 布鲁斯-施奈尔在他的博客《施奈尔谈安全》中说早在2014年。你需要的是:一个IT(重大)事件管理团队,有明确的角色和职责,经过培训,可以按照经过危机验证的流程履行这些职责,同时与管理人员、客户和主题专家进行有效沟通。
停电的人性一面
问题就在这里。 在一项SAN调查中,近一半(47%)的受访者表示 说,人员和技能的短缺是他们有效地应对事件的最大挑战。的确如此。 正常运行时间研究所的2019年研究报告 现在称IT人员配置问题为危机。61%(61%)的受访者说他们在留住或招聘员工方面有困难--比前一年的55%有所增加。
这很重要,因为60%的组织认为他们最近的重大停机事件是可以避免的。他们说,如果他们有更好的管理、流程或配置,故障是可以避免的。对于损失超过$1万的停机事件,这个数字跃升至74%。
"通过对培训投资不足,未能执行政策,允许程序逐渐过时,以及低估合格员工的重要性,管理层为导致停机的一连串情况创造了条件,"正常运行时间研究所杂志的首席编辑凯文-赫斯林在2019年9月的一篇文章中写道 博文关于该调查。
为IT事件管理团队配备人员
事件是指任何扰乱IT服务正常运行的意外事件。 IT事件管理是IT服务管理的一个领域(ITSM),其中服务会尽快恢复正常。许多IT事件管理团队使用既定的ITSM框架,如IT基础设施库(ITIL®)或 COBIT.其他人则使用长期以来建立的专有最佳做法的组合。
下面是一些最常见的IT事件管理角色的招聘和培训。
(主要)事件管理者
这些人需要被 "控制 "起来。当出现问题时,他们提供即时的结构和领导,并最终负责使服务恢复正常。
- 充当事件的中央指挥部
- 促进过程,端到端
- 管理资源的参与
- 推动问题的解决过程,为中小企业提供具体的分析任务
- 编写事故报告
- 对重大事件进行事后调查
- 将事件添加到正在进行的事件和解决方案的知识库中
- 监督指定事件管理工作流程中涉及的所有流程
- 确保事件得到解决,以达到指定的SLA。
流程所有者
这个人负责整个事件响应流程,包括在必要时对其进行修改,以确保其与业务目标保持一致。
- 划定关键绩效指标(KPI),以确定业务应如何正常运作
- 确保关键绩效指标符合业务目标
- 设计、记录、审查和改进流程。
- 不断从事件中学习,调整流程的任何方面,以满足总体的业务目标
第1级服务台人员
作为任何一个人--用户、客户、经理或组织中的任何其他人--报告事件时的第一个接触点,一级服务台由对最常见的IT问题有基本但广泛的工作知识的人组成,如密码重置或打印机问题以及已知问题的解决方案。
- 是否对任何服务报告进行初始数据收集、评估和诊断
- 立即采取行动,尽快恢复故障的IT服务
- 将任何不能立即解决的问题上报给二级服务台
- 记录所有的服务请求和采取的解决步骤
- 让报告事件的人了解事件的情况
第2级支持人员
这个级别的人员通常是拥有特定系统高级知识的人。当一级人员将他们无法解决的问题升级时,一般会提出请求。
- 担任某一特定系统、软件或技术的主题专家
- 诊断问题
- 进行RCA(根本原因分析)。
- 记录为解决事件所做的一切,以便在知识库中记录。
- 如果事件得到解决,与报告人确认解决情况
- 如果事件没有得到解决,将其上报给第三级和/或工程部门
- 提供专题知识
总结
根据 2019年IT中断影响研究错过的两个避免停电的机会是:没有发现系统接近容量时,没有发现关键硬件、软件或网络组件的性能正在缓慢但稳定地下降。
这些问题主要是人的问题,可以通过建立强大的、可扩展的流程/做法,并培训你的IT员工来应用这些流程/做法来解决。在组建事件管理团队时,要问自己的问题包括。
- 你建立IT能力的速度是否快于雇用资源来管理它?
- 你是否在招聘和留住IT技术工人方面有困难?
- 你的IT培训和教育计划是否因缺乏预算而受到影响?
由于系统越来越复杂,特别是随着云计算的出现,故障将继续发生。但是,许多故障是可以避免的,而其他的故障则可以通过投入资源,让合适的技术员工在合适的岗位上遵循经过验证的最佳实践和流程,更快地修复。
关于Kepner-Tregoe
60多年来,Kepner-Tregoe一直是问题解决和卓越服务流程的行业领导者。KT的专家们通过工具、培训和咨询帮助公司提高他们的事件和问题管理绩效水平--导致高效的服务管理团队随时准备应对贵公司最关键的问题。