Amazon EC2美国东部数据中心发生故障——多个网站受到影响

美国东部地区的Amazon Elastic Compute Cloud目前正经受严重故障的考验。众多知名网站不可用或至少受到一定影响――其中包括Reddit、Foursquare、Quora、Hootsuite、Heroku、Assembla和Codespaces。故障的原因是位于维吉尼亚的美国东部数据中心中多个可用性区域(Availablity Zone)的EBS(Elastic Block Storage,它还支撑着Relational Database Services)容量不足。这很有可能是网络问题导致EBS控制器超载后弹性恢复Schema生效导致的。人人

8:54 AM PDT:早上早些时候的一次网络事件触发了US-EAST-1中的大量EBS卷重新镜像,造成US-EAST-1其中一个可用性区域的容量不足,这影响了 新EBS卷的创建,以及重新镜像并恢复受影响EBS卷的速度。此外,我们内部的一个EBS控制层面(control planes)满了,这样一来创建新EBS卷和基于EBS的实例就很困难了。 ――摘自Amazon AWS Dashboard

诸如eWeek、InformationWeek和CNN之类的新闻网站很快便报道了这一事件。GigaOm针对那些同样脆弱的依赖于EC2的PaaS提供商(Heroku、EngineYard和DotCloud)进行了一番讨论。

今天,4月21日1:41 AM PDT,Amazons的AWS状态页上报告:“我们正在调查EBS卷的延迟和错误率,还有US-EAST-1区EC2实例的连通性问题。”直到现在为止(1:48 PM PDT),我们还没有彻底解决这个问题。

除了终结者电影中宣布的天网攻击时间恰好是2011年4月21日以及Twitter上给Amazon工程师的有用提示之外,关于本次意外故障还有一些精湛的回复。债务追讨

@scottmcnealy:我说过网络就是电脑,但我并没说它能100%正常运行。
@torrenegra:今天是《终结者》中的审判日(2011年4月21日),天网本该把我们全灭了,幸好它是跑在Amazon EC2上的。
@Nicolethebear:亲爱的Amazon EC2――有没有试试开了再关?

通常一个EC2区域中的不同可用性区域是互不干涉的,因为它们是物理上隔离开的数据中心,通过优化过的连接来保证低延时。 如此说来,跨过多个AZ来架构系统应该能提供足够的风险管理来补偿一个或多个AZ的故障。因此,它们的可用性保证受到了多方质疑。PCWorld与Gartner分析师Drue Reeves和Reuven Cohen(Enomaly的创始人和CTO)一起讨论了这个话题。竞争对手云提供商DotCloud(同样依赖于Amazon EC2)报道了他们在本次故障中的经历,指出了一些灾难恢复上的技术问题。

Hacker News的报道中引用了Netflix工程师的话,跨多个可用性区域的系统在本次故障中几乎没什么问题(“Netflix部署在三个可用性区域里,少了一个仍可继续运行。这比彻底不可用的代价要小多了。”)

来自backdrift.org的Keith就如何处理此类停机时间给出了一些简单有效的建议。举例来说,使用配置管理系统来做镜像设置与更新(例如puppet),同步那些基于云的数据并保护你的DNS配置。Clay Loveless的一篇文章就此做了详细说明。

想要提前获得AWS问题的状态更新,Eric Hammond(Alestic)建议关注@ylastic,Eric Hammond描述了如何让受影响的服务器重新上线。微软的“本地化HTML5”究竟意味着什么

今天这个事件的后果就是会有很多人对基于云的应用程序的可靠性提出质疑,需要给出必需的架构方面的预防措施以及风险管理。不仅是Amazon,其他的云提供商也必须如此,比如VMware的CloudFoundry和Google App Engine。另一个话题将是云提供商给出的SLA——Amazon EC2针对多AZ部署的外部连通性SLA是99.95%。EBS和RDS都还没有SLA。

你可能感兴趣的:(Amazon EC2美国东部数据中心发生故障——多个网站受到影响)