亚马逊公布了Amazon EC2云服务器宕机的事故报告。
太平洋夏令时4月21日凌晨12:47,位于美国东区的一个可用区(数据中心)执行了一次正常的Amazon Web Services伸缩活动,为了完成升级需要临时转移网络流量,标准的做法是将流量卸载到Elastic Block Store(EBS)主网络中的冗余路由器。然而流量转移未被正确执行,流量没有被路由到EBS主网络的冗余路由器中,而是被路由到了冗余EBS次网络的低容量路由器中,它无法处理如此高的流量。导致的结果是,受影响数据中心的许多EBS节点与其它节点完全孤立开来,主网络和次网络同时断开连接。用通俗的话说,亚马逊在进行高速公路扩建工作,它不是关闭了建设中的高速公路的一条通道,而是不小心关闭了整个高速公路,迫使所有汽车穿过容量有限的城镇公路,结果导致了严重的交通堵塞,所有人都被迫停在原地。类似去年中国发生的绵延100公里的大塞车。
本文来自solidot.com