自动化如何使IT行业的问题解决变得更加困难

通过 杨兆华, Kepner-Tregoe

自动化正在发生--这一点是毫无疑问的。对于公司的IT部门来说,自动化意味着有能力快速和有效地提供(和重新提供)技术资源,以优化利用率和降低运营成本。这些都是好事......但并不是没有挑战。实现速度和业务敏捷性的同样的自动化能力正在使IT组织在技术环境中出现问题时越来越难以解决。

第一个挑战来自于自动化带来的技术环境的发展速度超过了用于管理这些环境的IT流程。你的车能开得很快,这很好,但如果你不能在高速上转向,你就有问题了。大多数IT问题管理流程涉及诊断方法,通过综合环境因素和重复已知的事件序列,寻求重现原始问题。自动化能力主要集中在加速变化(和业务敏捷性)--而不是实现理解所发生的事情和原因所需的可重复性。当IT人员去重现一个错误时,环境很可能已经改变,他们没有工具来重现问题发生时的样子。

跨平台/供应商环境使这一问题进一步复杂化,因为它将技术情况的关键部分移出了公司的直接控制范围--需要在相互竞争且并不真正愿意公开分享信息的供应商之间进行协调。跨供应商环境提供了成本套利的机会(为特定活动使用最便宜的选择),但往往使IT部门缺乏大局的透明度,因为每个供应商的诊断工具都是独一无二的,而且大多数是不能互操作的。第三方服务管理和运营管理工具试图弥合这一差距,但在大多数情况下,并没有为IT部门提供他们在高度动态的自动化技术环境中成功斡旋跨供应商所需的全套问题解决工具。

速度和环境的复杂性并不是唯一的挑战(很多事情都很复杂,发展很快,而且仍然是可以管理的)。它是 连续变化 由于大多数IT流程都是围绕着 "停止,找出发生了什么,修复它,然后再开始行动 "的模式(而不是在飞机飞行时修复它),所以管理起来变得很困难。当一个事件或事故发生时,往往已经来不及捕捉导致它的行动和环境因素(面包屑的痕迹已经消失了)。动态地重新配置基础设施(由自动化实现)使诊断环境问题变得困难,因为可能没有办法知道同样的环境配置是否会在未来再次出现。分析因果关系的模式可以 帮助 IT人员推断出可能导致问题的原因,但他们的假设往往缺乏必要的信心,无法采取预防措施。

随着时间的推移,自动化规则不断发展并相互复合--变得越来越复杂,直到它们达到一个临界点,即机器可以执行这些规则,但人类不再能够解释这些规则。顺便说一下,当创建规则的人改变工作角色时也会发生这种情况。对某件事情以某种方式实施的原因缺乏了解,不仅妨碍了有效的问题诊断,也抑制了IT部门做出改变的能力,以防止同样的环境/事件场景在未来发生。为了解决这种情况,IT问题管理人员需要有能力确定以下两点 什么 事件发生时,技术环境正在发生变化,以及 为什么 自动化规则以这种方式实现了配置--这也是IT部门今天努力的方向。

现代IT环境发展迅速,IT人员在遇到问题时,只有有限的时间窗口来重现和解决问题。为了成功地诊断自动化中的问题,你公司的IT人员需要一个强大的、结构良好的方法来帮助他们快速调查环境,识别重要的东西并启动行动。

Kepner-Tregoe的专家们拥有60多年与公司合作实施问题管理流程和最佳实践的经验,他们知道组织适应技术变化需要什么。使用KT方法可以帮助你的员工: 1:

  • 通过提出澄清性问题,清楚地了解手头的情况
  • 通过日志收集数据,以了解问题发生时的情况和环境--在高度自动化的环境中,这是与复制最接近的替代方法。
  • 考虑到跨平台/供应商环境的挑战,运用过程驱动的方法,利用数据找到问题的原因。
  • 使用合理的程序来筛选出需要的数据,而不是被传统大数据分析产生的大量数据 "噪音 "所淹没。

自动化正在发生,而且无法阻止它。

相关文章

博客图片1
用自动化处理问题
博客图片1
自动化是如何实现现代问题解决的
博客图片1
自动化是否使你的劳动力变笨了?
博客图片1
拥抱工作的未来。敏捷性和适应性的重要性

我们专注于:

联系我们

如需咨询、了解详情,或提出建议