突发事件应对的基本指南

有时,回归基本原理会有所帮助。例如,提醒自己事件响应(IR)的意义。答案很简单:保持业务运行。但这种简单是有欺骗性的。这是一个令人难以置信的沉重责任,因为你知道如果你应对重大事件的能力出过问题。 根据Gartner的说法你的系统每中断一分钟,平均花费$5,600,加起来每小时超过$300,000。这是一大笔钱,也是一个很大的压力。

在KT,我们集思广益,想出了七个最佳做法,以确保你的IR项目的成功。它们包括一些操作性的,一些技术性的,一些组织性的建议,但所有这些都有助于建立一个一流的IR团队。

为什么是事件响应?

ITIL将事件描述为对正常IT服务的任何中断或干扰。我们可以让它更贴近你的业务,并说事件是指系统以对你的客户产生负面影响的方式行事的任何情况。它不一定是一个直接的系统崩溃。以一个运行缓慢的电子邮件系统为例。这是否构成一个事件?使用我们的定义,你肯定会这样做,因为缓慢的电子邮件意味着对客户服务查询的反应更慢,对招标书的反应延迟,产品开发缓慢,以及你的企业为盈利而从事的每项活动。

IR是你应对这些事件的过程(而事件与问题不同,我们将在后面讨论)。成功的IR--这意味着它既快速又有效--能提高工人和流程的效率,提高生产力,并最终提高企业的收入。这确实是一项关键性的操作。

超级事件响应的7个最佳实践

这里有八种最佳做法,可以对你的投资者关系团队进行微调,使其表现最佳。

1.沟通、沟通、沟通

在IT和组织的其他部分之间,特别是在IT和用户之间,历来存在着沟通的鸿沟。这在试图提供伟大的IR时产生了问题,因为你的许多(如果不是大多数)事件将由你的用户报告。他们必须有一个简单的方法来做这个报告,这样你就能尽快听到事件。然后,在你解决事件的过程中,你必须让他们实时了解情况。所有这些都是获得他们信任的必要条件,这样他们才会与你更紧密地合作--在未来的事件中,这种合作是必不可少的。首先,开辟多种渠道,让用户轻松地提出票据。例如,他们应该能够通过电子邮件、聊天、门户网站或像Yammer这样的企业社交网络来提醒IR团队。你还应该创建自助服务机制,让用户可以解决容易发生的事件。 让自助服务容易获得,并教育用户自助和使用知识库来自行解决问题的好处。

然后,在IR团队修复事件的过程中,必须让每个人实时了解进展。有两个信息应该随时显示在显著位置:事件状态(当前的解决状态,包括预计完成时间),以及事件的优先级(相对于其他事件,解决该事件有多重要。

自动化可以提供帮助,通过在重大事件的整个生命周期内发送自动更新。清晰可见的通知也将防止用户提出重复的票据,使服务台的工作量过大。即使没有什么可报告的,也要每小时或每半小时告诉你的利益相关者。并有一条专线来立即响应重大事件,为任何受影响的人提供支持。

2.采用DevOps流程

在DevOps成为主流之前,IR团队基本上都是为了自己。他们,而不是真正建立系统的人,对所有的事件负责。例如,在如何解决某一特定应用的重复性中断问题上,没有向开发人员提供反馈回路。构建系统的人和负责在出错时修复系统的人之间几乎没有任何沟通。事实上,创建DevOps的一个原因是为了消除这些组织的孤岛。这一点至关重要,因为今天的系统非常复杂--它们都是相互关联的,影响一个系统的因素很可能会影响其他系统。

有了DevOps的结构,开发人员在建立他们的系统时做得更好,因为他们现在知道他们也必须支持这些系统--不再把问题扔到墙上让另一个小组去担心。IR团队有了支持,而且,如果DevOps做得好的话,通常会有明确的文件说明如何保持复杂系统的运行。

3.感知何时 "蜂拥而上"

尽管大多数企业都有一个处理事件的 "分层 "结构--第一层是服务台,第二层涉及应用专家,第三层一般是系统超级专家和开发人员--但在解决重大事件时,你不想普遍地执行这种结构。你想让你的团队在必要时有 "群 "的自由。

当一个问题有巨大的业务影响时,这通常是必要的。在这种情况下,你要偏离正常的分层IR流程。蜂群以一种网络化的协作模式取代了这种结构。 它起源于思科,思科在其2008年的白皮书中写道:"数字蜂群."这一概念随后被服务创新联合会采纳,并发展成为一个题为""的愿景。智能蜂群.."

蜂群背后的一般想法是,你把所有可能帮助解决某一事件的人同时带到IR团队中,而不是升级。他们在那里集思广益,相互碰撞,并在总体上利用小组的活力,为困难的IR问题提出新的和创新的解决方案。

蜂群的核心原则包括。

  • 支持的 "层级 "被取消了
  • 没有从一个小组到另一个小组的升级--每一个需要加入团队的人都从一开始就在那里。
  • 应将案件直接交给最有可能解决该问题的人。
  • 接手案件的人是见证案件解决的人。

4.实施 "不让我再发生 "政策

你还应该注意不要反复扑灭同样的火。这意味着要知道IR和问题管理之间的区别。IR负责让事情恢复正常,即使这只意味着暂时的修复。问题管理是指你找出事件的根本原因,并将其解决。

请注意,你永远不可能消除事件的发生,那是不现实的。然而,你可以通过有效的问题管理来避免重复提供对同一问题的修复。

5.正确对待问题陈述和优先权

你能做的最重要的一件事可能是理解和阐明事件涉及的内容。这被称为事件分类,但你需要在将事件归入一些基本类别之后,极其准确和精确地指定问题陈述。这应该包括诸如受影响的系统、地理位置、有多少内部用户受到影响,以及对业务运营的具体影响等参数。

只有当你有一个明确的问题陈述时,你才能确定优先次序。正确的分类有助于更好地排除故障和提高解决时间。然后,确定优先次序,确保最关键的业务问题首先得到解决。

6.鼓励不责备的文化

这一点至关重要。如果出了问题--无论是在IR反应本身,还是在系统的根本问题上--请考虑只关注问题,并找到真正的根源,无论它是什么。有一种 "指责和羞辱 "的文化对你没有好处,甚至会减慢IR反应,因为人们非常害怕犯错。

7.设定正确的关键绩效指标并加以改进

关键绩效指标(KPI)是非常重要的,因为它们可以衡量你的表现,并给你一个量化的尺度,用来衡量你是否在改进。然而,要小心你的关键绩效指标。有些指标让人误以为你的IR团队表现良好,并可能导致你优先考虑错误的事情。例如,首次呼叫解决(FCR)是一个常见的指标,它衡量了有多少事件可以通过首次呼叫得到解决。但有时,当服务质量更重要时,这将导致草率的决定和行动。

因此,制定现实的指标,并对其进行衡量,以不断改进。以下是一些建议追踪的关键绩效指标。

  • 事件数量(每个问题类别、优先级、状态、请求者等)。
  • 解决问题的平均时间
  • 平均回应时间
  • SLA %
  • 无需升级即可解决的事件
  • 每个事件的平均成本
  • 事故重开率

结论。有效的事件管理的好处

我们都知道糟糕的投资者关系的结果--业务受到影响。另外,正确的投资者关系的好处是多方面的。你有顺利的业务运作。你实现了IT团队以及组织内部的效率和生产力的提高。你有更高的用户满意度,因为你保持你的SLA。而且,随着你在IR方面做得更好,你可以开始主动识别并防止重大事件的发生,在用户或客户报告之前发现潜在的重大事件。这是一个巨大的三赢局面。

关于Kepner-Tregoe

60多年来,Kepner-Tregoe一直是问题解决和卓越服务流程的行业领导者。KT的专家们通过工具、培训和咨询帮助公司提高他们的事件和问题管理绩效水平--导致高效的服务管理团队随时准备应对贵公司最关键的问题。

相关文章

博客图片1
在客户支持组织中应用 "左移 "原则
博客图片1
Covid-19大流行病:寻找银色的翅膀
博客图片1
保持项目正常运行。大流行期间的风险管理

我们是以下方面的专家:

联系我们

如需咨询、了解详情,或提出建议!