组建一流的IT事件管理团队

一个人为错误--一个非常基本的错误--导致英国航空公司遭受损失 2017年5月27日的一次IT故障迫使它取消了400多个航班,导致75000名乘客滞留。一名工程师切断了一个数据中心的电源,当它被重新插上时,电涌造成了重大损失。 航空公司的净成本:高达8000万英镑 (约$102百万)。

这听起来可能是一大笔钱,而且确实如此,但 根据Statista的数据,这并不罕见。86%的企业每小时的平均停机成本超过$30万。而且这些时间很快就会增加。

ǞǞǞ 2019年IT中断影响研究 发现,在过去的三年里,典型的组织经历了10次停电(基础设施或软件的性能下降)或彻底的停电。 这10起事件的金额加起来容易达到数百万美元。

毫不奇怪,80%的公司报告说,他们的IT基础设施的性能和可用性是他们最关心的问题。一半以上的公司担心会发生破坏性的故障,以至于会成为主流新闻。如果发生了这样的事件,53%的人预计会有麻烦,有人会失去工作。

尽管简单地对IT问题进行自动化响应是件好事,但 "事件响应需要人,因为成功的事件响应需要思考,"写道。 布鲁斯-施奈尔在他的博客《施奈尔谈安全》中说早在2014年。你需要的是:一个IT(重大)事件管理团队,有明确的角色和职责,经过培训,可以按照经过危机验证的流程履行这些职责,同时与管理人员、客户和主题专家进行有效沟通。

停电的人性一面

问题就在这里。 在一项SAN调查中,近一半(47%)的受访者表示 说,人员和技能的短缺是他们有效地应对事件的最大挑战。的确如此。 正常运行时间研究所的2019年研究报告 现在称IT人员配置问题为危机。61%(61%)的受访者说他们在留住或招聘员工方面有困难--比前一年的55%有所增加。

这很重要,因为60%的组织认为他们最近的重大停机事件是可以避免的。他们说,如果他们有更好的管理、流程或配置,故障是可以避免的。对于损失超过$1万的停机事件,这个数字跃升至74%。

"通过对培训投资不足,未能执行政策,允许程序逐渐过时,以及低估合格员工的重要性,管理层为导致停机的一连串情况创造了条件,"正常运行时间研究所杂志的首席编辑凯文-赫斯林在2019年9月的一篇文章中写道 博文关于该调查。

为IT事件管理团队配备人员

事件是指任何扰乱IT服务正常运行的意外事件。 IT事件管理是IT服务管理的一个领域(ITSM),其中服务会尽快恢复正常。许多IT事件管理团队使用既定的ITSM框架,如IT基础设施库(ITIL®)或 COBIT.其他人则使用长期以来建立的专有最佳做法的组合。

下面是一些最常见的IT事件管理角色的招聘和培训。

(主要)事件管理者

这些人需要被 "控制 "起来。当出现问题时,他们提供即时的结构和领导,并最终负责使服务恢复正常。

  • 充当事件的中央指挥部
  • 促进过程,端到端
  • 管理资源的参与
  • 推动问题的解决过程,为中小企业提供具体的分析任务
  • 编写事故报告
  • 对重大事件进行事后调查
  • 将事件添加到正在进行的事件和解决方案的知识库中
  • 监督指定事件管理工作流程中涉及的所有流程
  • 确保事件得到解决,以达到指定的SLA。

流程所有者

这个人负责整个事件响应流程,包括在必要时对其进行修改,以确保其与业务目标保持一致。

  • 划定关键绩效指标(KPI),以确定业务应如何正常运作
  • 确保关键绩效指标符合业务目标
  • 设计、记录、审查和改进流程。
  • 不断从事件中学习,调整流程的任何方面,以满足总体的业务目标

第1级服务台人员

作为任何一个人--用户、客户、经理或组织中的任何其他人--报告事件时的第一个接触点,一级服务台由对最常见的IT问题有基本但广泛的工作知识的人组成,如密码重置或打印机问题以及已知问题的解决方案。

  • 是否对任何服务报告进行初始数据收集、评估和诊断
  • 立即采取行动,尽快恢复故障的IT服务
  • 将任何不能立即解决的问题上报给二级服务台
  • 记录所有的服务请求和采取的解决步骤
  • 让报告事件的人了解事件的情况

第2级支持人员

这个级别的人员通常是拥有特定系统高级知识的人。当一级人员将他们无法解决的问题升级时,一般会提出请求。

  • 担任某一特定系统、软件或技术的主题专家
  • 诊断问题
  • 进行RCA(根本原因分析)。
  • 记录为解决事件所做的一切,以便在知识库中记录。
  • 如果事件得到解决,与报告人确认解决情况
  • 如果事件没有得到解决,将其上报给第三级和/或工程部门
  • 提供专题知识

总结

根据 2019年IT中断影响研究错过的两个避免停电的机会是:没有发现系统接近容量时,没有发现关键硬件、软件或网络组件的性能正在缓慢但稳定地下降。

这些问题主要是人的问题,可以通过建立强大的、可扩展的流程/做法,并培训你的IT员工来应用这些流程/做法来解决。在组建事件管理团队时,要问自己的问题包括。

  • 你建立IT能力的速度是否快于雇用资源来管理它?
  • 你是否在招聘和留住IT技术工人方面有困难?
  • 你的IT培训和教育计划是否因缺乏预算而受到影响?

由于系统越来越复杂,特别是随着云计算的出现,故障将继续发生。但是,许多故障是可以避免的,而其他的故障则可以通过投入资源,让合适的技术员工在合适的岗位上遵循经过验证的最佳实践和流程,更快地修复。

关于Kepner-Tregoe

60多年来,Kepner-Tregoe一直是问题解决和卓越服务流程的行业领导者。KT的专家们通过工具、培训和咨询帮助公司提高他们的事件和问题管理绩效水平--导致高效的服务管理团队随时准备应对贵公司最关键的问题。

博客图片1
重大事件要点。沟通和有效行动。帮助!我们现在该怎么做?
博客图片1
重大事件管理--当变革出现可怕的错误时做好准备

我们是以下方面的专家:

联系我们

如需咨询、了解详情,或提出建议!