IT问题的解决。当一个小变化引起大问题时

有时,日常工作中最小的变化也会对企业产生深远的影响。考虑一下每周四下午的系统故障之谜。

情况 - 一家股票经纪公司的IT系统经历了缓慢的交易时间,随后在一个星期四下午3点20分,他们的交易系统完全中断了。重新启动交易系统解决了这个问题,让大家重新开始工作......直到下一个星期四下午发生同样的事情。

在接下来的几周里,同样的症状出现了。这个问题总是通过系统重启来解决,但是挫折感越来越强,特别是在交易大厅,时间的损失会导致利润的损失。当这个每周一次的事件引起董事会的注意时,他们指示IT主管把这个问题作为优先事项。他成立了一个问题解决小组来寻找原因,他们使用Kepner-Tregoe RCA方法来指导他们的工作。

识别问题 - 认识到要解决一个问题,你首先必须清楚地说明问题是什么,该团队开始将问题从笼统的 "交易系统很慢 "分离出来,并澄清为更具体的 "交易超时"。该小组利用这一问题陈述,集中精力寻找找到真正原因所需的信息,而不是把时间浪费在研究有趣但不相关的信息上。

描述问题 - 明确的问题陈述是必要的,但并不足以排除错误的原因和提出可能的原因。因此,该小组开始收集有关什么、何时、何地、以及在多大程度上观察到问题和没有观察到问题的信息。

  • 该问题发生在系统上运行的所有交易中--查询、报告和交易。
  • 问题是具体的超时--没有产生错误信息
  • 该问题影响了所有的工作人员,它不限于任何特定的用户群或地理位置。
  • 该问题于9月6日星期四下午3:20首次出现--此前未被注意到。
  • 这个问题只发生在星期四下午3点到3点半之间。这方面有一个例外--10月4日星期四没有报告这个问题。
  • 这个问题每天只发生一次,每周一次。

通过花时间首先描述问题,团队能够迅速找到近因,然后找到系统性原因
找出可能的原因 - 有了强有力的问题描述,该团队能够避免考虑所有可能影响系统的变化的陷阱;他们正在寻找的原因影响了整个系统,但只是在星期四下午3点和3点半之间。在正常工作时间内,这种可预测的时间偏差表明,原因可能是由于人类与系统的一些互动。这成为他们关注的焦点。

检查工作名册并没有给他们提供任何可行的线索,但与团队领导的谈话最终确定了一个可能的联系。开票组有一位员工,每周四下午都会提前离开,带女儿去上芭蕾舞课。问题解决小组的成员采访了她,了解她是如何与系统互动的。他们发现,就在她每天离开的时候,她开始运行一个她需要在第二天早上使用的报告。通常情况下,这将在下午5:30运行,因为这是她通常离开工作的时间。在这个时候,证券交易所已经关闭,很少有人使用这个系统。在星期四,像往常一样,她把报告设置为在她离开时运行,但她是在下午3:15左右离开的。问题没有发生的那个星期四,恰好是她女儿在学校旅行的日子,没有去看芭蕾舞。

通过花时间首先描述问题,团队能够迅速找到近因,然后找到系统性原因:报告在运行时没有参数,所以它搜索了整个交易数据库,而且报告的优先级高于所有其他交易--在股市关闭时这不是一个问题。但是在下午3点15分,这导致已经很繁忙的系统运行得非常慢,并最终超时,从而导致与证券交易所的连接中断。

消除根本原因 - 快速解决方案是指示该工作人员不要在股市开放时运行该报告。她向其他人展示了如何在周四下班时运行该报告,这就消除了问题的近因,并防止了今后发生这种情况。该团队继续解决系统性原因:在没有参数的情况下运行报告,消耗了超过必要的交易系统容量。

为了消除系统性原因,一个开发团队对系统进行了修改,以确保报告需要特定的参数,任何可能影响系统性能的报告都不能在证券交易所的交易时间内运行。现在,股票交易在IT系统中航行,甚至在星期四,而在城市的另一端,一群穿着粉红色紧身衣的小女孩正在学习芭蕾舞。谜团解开了。

博客图片1
危机管理中的问题解决
博客图片1
你的管理发展计划中是否包括解决问题?
博客图片1
为什么云服务使问题管理更加困难,也许也更容易一些
博客图片1
结构化思维。为问题管理带来连贯性

我们是以下方面的专家:

联系我们

如需咨询、了解详情,或提出建议!