高可用云计算服务——Engine Yard如何应对AWS停用

PaaS云服务提供商Engine Yard,在2012年3月23日经历了AWS(Amazon Web Service)网络服务中断后,将对外服务不可用的比率控制在0.13%(2300个客户,有3个客户受到网络中断的影响)。

Engine Yard的运营VP,Bill Plat,以及市场营销高级VP,Mark Gaydos,透露了他们三条最佳实践:

  • 及时沟通,不论是对外部客户还是合作伙伴——在事故发生时,Engine Yard会及时与AWS团队沟通以达成应对策略;同时对外部客户发布公告,告诉客户发生了什么,为什么会这样,现在进展到了哪个阶段。
  • 避免“热点数据”——Engine Yard通过将客户以及基础设备散落在不同的区域,来减小事故发生所产生的影响。而且,Engine Yard会提供冗余数据快速恢复服务,但这项服务会额外收费。
  • 清除隐患——Engine Yard在每次事故之后,找到导致其发生的根本原因,并采取措施保证类似事故不会发生第二次。

早在一年前,在经历了类似事故后,Engine Yard就着手研发了新的服务功能,支持客户在备选区域内恢复业务数据。同时,对于AWS来说,网络服务中断这个话题也常常被用户提及(取自AWS论坛):

论坛用户endertech:一周之内发生两次网络服务中断,这是为什么?

亚马逊AWS成员preethi@AWS回复说:我们知道网络中断会造成部分用户的不便,除了查看AWS健康状态仪表盘上的数据,我无法提供更多的信息。但我们团队在不断的努力,尽全力避免类似事故的发生,面对现在这样的状况,可以先参照下“如何构建数据容错的AWS应用”指南。

不论是外部客户还是云计算服务合作伙伴,都希望得到Up-To-The-Minute信息,能够提供高可用、高容错的云计算服务是未来供应商的核心竞争力。

你可能感兴趣的:(高可用云计算服务——Engine Yard如何应对AWS停用)