纽约证券交易所系统故障中的规划关键:事件管理手册的10个基本组成部分

最近,包括纽约证券交易所和美国联合航空公司在内的主要关键运营中心经历了大范围和全国性的系统故障。这些故障造成的混乱、挫折和金钱损失还没有计算出来,但我只能猜测它们将是天文数字,并在人们的脑海中徘徊一段时间。

根据新闻稿,纽约证券交易所的四个小时的故障显然是由于软件升级造成的。虽然升级是在非工作时间的维护窗口进行的,但当交易员在第二天早上7点登录恢复正常活动时,发现他们难以连接,这就开始造成了混乱。在写这篇文章的时候,还不知道升级是什么时候完成的,但是按理说,如果有一些额外的计划,这种情况是可以避免的。

虽然把缺乏计划或未能应用预防和应急思维作为这个问题的原因有点事后诸葛亮的味道,但我反而想研究一下事件发生后的处理。

事件管理的困难在于,它是现场的,需要强大的促进技能和紧张的指导。使这一事实更加复杂的是,每个人都有能见度,在电话会议上肯定有超过100人,许多人只是乞求采取快速行动,以挽救迟来的开放交流。在这种交火过程中,可能的领导者很容易采取他们所面临的最简单的潜在行动。在纽约证券交易所的案例中,最初为恢复服务而采取的行动只造成了一种被称为二次停电的情况,在这种情况下,通过尝试使问题变得更加严重。

在这种情况下,真正的胜利是之前的计划--在事情顺利进行时应该出现的计划--生效了,并使交易在同一天晚些时候恢复。订单按照计划被正确地暂停和取消,位于新泽西州Mahwah的一个数据中心上线,恢复了交易。这个问题在同一天下午3点10分得到解决。

当我们与在事件管理领域遇到挑战的客户合作时,我们采用技能发展、辅导、工具整合和重点文化变革相结合的方式处理这些事件。一个强大的事件管理团队应该事先明确角色和责任,并像战斗机飞行员或救援直升机机组一样,使用一系列的检查清单和整体的 "游戏手册 "来帮助团队保持冷静,并在压力下良好运作。

一个游戏手册至少应该帮助定义以下内容。

1.了解和验证服务退化的方法。

2.用系统的方法来澄清和理解症状和用户报告的错误,以便让合适的人参与进来。

3.帮助管理参与的工具,包括当前的待命号码、备份和供应商参与代表。

4.电话会议信息、作战室、使用仪表板或实时工具的标准化工具和地点。

5.快速、准确地确定优先次序的方法,包括了解当前影响、未来影响和时间框架。

6.事先制定的每个应用的决策方法和目标。

7.一个风险管理框架,用于向变革管理部门以及修复人员提交准确和有用的文件。

8.一个关于如何验证系统已被恢复并验证没有形成二次停电的计划。

9.移交要求,更新文件并将事件移交给问题管理部门。

10.提出和执行项目的框架,以防止今后发生事故。

在KT,经验告诉我们,预先建立这种框架和游戏书式的结构会带来更快的结果,以及更有信心和能力的团队,特别是在初级水平。当你的组织受到攻击时,你必须依靠你的事件管理团队在压力下思考,一个结构化的计划能起到的作用是惊人的。

博客图片1
供应链管理的核心是协作和团队精神
博客图片1
云服务如何推动供应链效率
博客图片1
解除束缚--说起来容易做起来难
博客图片1
当未来不明确时的规划。管理不确定性的三项行动

我们专注于:

联系我们

如需咨询、了解详情,或提出建议