为什么今天的公司没有100%的可用性SLA?

在当今竞争激烈的商业环境中,能使一个公司成功或失败的关键因素是它向客户提供的服务的可用性。故障发生了,无论它们多么短暂。当一个企业的收入主要依赖于 "在线和可用 "时,即使是一分钟也可能是太多了。当Facebook、Twitter、Salesforce.com或Amazon出现故障时,这就是国际新闻。

我们的系统必须每天24小时在线,每周7天,没有休息。100%的可用性可能吗?我们能在与供应商的服务水平协议(SLA)中坚持这一要求吗?

由于简单的日常IT管理问题,百分之一百的正常运行时间很难提供。总有一些升级需要安装,系统过载,硬件和软件问题,崩溃和其他常见的事故,几乎总是会造成至少一些停机时间,除非我们有100%的冗余功能。

也就是说,我们能坚持百分之百的可用性吗?答案是坚定的......也许吧!

完全可用是可能的,但要付出代价。百分之百的正常运行时间的成本是否值得,它对你来说究竟意味着什么?每个与云供应商签订的服务协议都会包括一个不包括在其正常运行时间统计中的例外情况或时间清单。这些可能是商定的维护窗口和不可抗力(也称为上帝的行为)。可能有一个条款规定,供应商有一个最小的时间窗口来恢复故障--在 "高可用性 "SLA中,这可能是一个几分钟的问题。如果它实现了这一目标,那么故障将不被算作停机时间。

这意味着,在现实中,100%实际上会比 "100%"少一些。然而,对你的最终用户来说,就所有的意图和目的而言,它应该是提供持续的可用性。最大化客户体验的关键是你的云供应商如何应对计划内和计划外的故障,利用云架构和按需概念,真正实现IT服务流,以达到可用性目标。

云的性质允许多种冗余,有能力将服务的交付几乎无缝地转移到其他硬件上,这意味着你的终端客户不会感觉到他们的服务有任何中断。

云计算市场的竞争水平为云计算供应商提供了非常强大的动力来提供高水平的服务质量。

云供应商承诺100%的正常运行时间,实际上是承诺你的网站/服务器将持续在线。如果他们不能做到这一点,而他们将尽最大努力实现这一目标,那么他们就同意负责任,并对任何停机时间进行赔偿。

任何有理智的人都知道,没有百分之百的正常运行时间。了解它的实际含义的秘密在你的SLA中。云计算供应商会对可接受的情况进行限制,他们会对不能提供的正常运行时间进行支付。你阅读SLA的条款并了解例外情况,以及供应商提供的补偿是什么,这是极其重要的。有些SLA表面上看起来不错,但实际上可能充满了例外情况,以至于提供的可用性百分比毫无意义。你必须阅读并理解所提供的内容。

真正的百分之百的可用性SLA实际上意味着你的供应商将尽其所能,确保你的系统持续在线,你的客户不会遇到任何故障。供应商承诺将被追究责任--而这种责任是关键。

关于Kepner-Tregoe

60多年来,Kepner-Tregoe一直是问题解决和卓越服务流程的行业领导者。KT的专家们通过工具、培训和咨询帮助公司提高他们的事件和问题管理绩效水平--导致高效的服务管理团队随时准备应对贵公司最关键的问题。

博客图片1
是的,我们需要消防员,但预防火灾的人更好。
博客图片1
消防或领导。你是如何度过你的日子的?
博客图片1
主动解决问题和创造非事件
博客图片1
绘制支持组织的主动问题管理路径图

我们是以下方面的专家:

联系我们

如需咨询、了解详情,或提出建议!