阿里云爆发史上最严重宕机事故。。。


阿里云香港区于2022年12月18日出现故障,多个香港和澳门的网站受到影响,包括Linux中国的官网(https://linux.cn/)澳门金融管理局、澳门银河、莲花卫视、澳门水泥厂等关键基础设施营运者的网站、澳觅和MFood等外卖平台、以及澳门日报等APP一度无法正常访问使用。

阿里云爆发史上最严重宕机事故。。。_第1张图片

阿里云宕机事故发生后,最高兴的莫属各大公有云厂商的朋友圈了,疯抢客户的节奏:

阿里云爆发史上最严重宕机事故。。。_第2张图片

事后阿里云官网立即发布关于宕机事故发布的公告

阿里云爆发史上最严重宕机事故。。。_第3张图片

后经排查,阿里云香港地域故障确认系香港PCCW机房制冷设备故障所致。

2022年12月19日下午,根据最新的更新进展显示,目前阿里云所租用的香港电讯盈科公司机房已修复制冷设备故障,阿里云香港地域所有可用区云产品功能正在陆续恢复正常。

此次故障,影响香港地域可用区C的云服务器ECS、云数据库、存储产品(对象存储、表格存储等)、云网络产品(全球加速、NAT网关、VPN网关等)等云产品使用。这一故障也影响了香港地域控制台访问和API调用操作。

对于受本次故障影响的产品,阿里云将根据相关产品的SLA协议进行赔付。

可见,这次已超过24小时的服务器宕机,为各网站及平台造成巨大损失,让阿里云惨遭滑铁卢。

多位阿里云用户宕机时间超过24小时,部分用户直到19日中午才得以恢复。另有电商用户表示,其宕机超过28小时仍未恢复。“从昨天早上11点开始,打了11次售后电话。但却一直无人回电。”

按照阿里云官网对云服务器ECS的服务可用性等级指标及赔偿方案,用户获得的赔偿方式,仅限于用于购买ECS产品的代金券,且赔偿总额不超过月度服务费。

阿里云爆发史上最严重宕机事故。。。_第4张图片

其实大家大可不必互相嘲笑对方,谁知道下一次大规模公有云宕机事件的主角是谁呢?

qidao123.com梳理了近年来著名宕机事件

01.2017年 1月26日,IBM

今年年初,IBM云的信用度受到影响,客户用于访问其Bluemix云基础架构(以前称为SoftLayer)的一个管理网站服务中断了数小时。

虽然底层基础架构没有真的出现故障,但用户发现他们无法管理自身的应用程序,添加或删除支持工作负载的云资源。

IBM表示该问题是由于一次接口升级造成,只是间歇性的。

02.2017年 1月31日,GitLab

GitLab极受欢迎的线上代码库——GibLab.com遭遇了18小时的服务中断,最终无法完全修复。故障原因是员工在维护过程中从错误的数据库服务器中删除了数据库目录。

一些客户的生产数据最终丢失,包括对项目,评论与帐户的修改。

该公司在事件后表示:“我们最合理的估计是此次影响了约5000个项目,5000个评论和700个新用户帐户。“

GitLab CEO在向用户道歉时称,“丢失生产数据是让人无法接受的”。

03.2017年 2月9日,Instapaper

亚马逊RDS服务上的MySQL数据库文件大小限制引发了Pinterest服务器的长时间宕机。

之后,这家社交化书签网站称,其工程师从来不知晓在2014年4月之前创建的数据库RDS容量限制为2TB,并且AWS服务也没有发出表内存储其“书签”即将超过该限制容量的警告信息。

经过一天多的时间,Instapaper(Pinterest在2016年收购的阅后即焚服务提供商)的服务恢复了对存档资料的受限访问,同时工程师们尽力恢复数据库的其它部分,四天后Instapaper完全恢复。

04.2017年 2月24日,Facebook

世界各地的一些用户Facebook账户被锁定了近三个小时,这让他们担心自己的帐户被劫持了。

Facebook给出的解释是为了预防黑客错将用户发送到恢复界面,让人觉得其他人登录了他们的帐户。而受影响的用户被阻止立即重新登录。

Facebook确认没有出现实际的安全漏洞。

这是那一周Facebook出现的第二次问题。几天前,有人还称他们无法看到自己发的动态。

05.2017年 2月28日, AWS

这次宕机事件极为轰动,相信大家对此记忆尤深。当时是一位AWS工程师试图调试亚马逊的弗吉尼亚数据中心S3存储系统,但输入了一个错误指令,导致许多互联网——包括诸如Slack,Quora和Trello等众多企业平台宕机4个小时。

亚马逊在事件后分析表示,该员工当时当时打算将一小部分用于计费过程的托管子系统服务器删除。然而,错误命令导致了更多的服务器脱机,包括为数据存储功能提供特定请求所需的一个子系统和另一个分配新存储空间的子系统。

亚马逊坐拥约三分之一的全球云市场,因此这次宕机事件重新引发了关于公有云的风险论。

06.2017年 3月16日,Microsoft Azure

微软Azure公有云出现超过8小时的存储可用性问题,主要影响到美国东部的客户。有些用户无法配置新的存储空间或访问本地现有资源。之后,一个微软工程团队确认原因为断电导致的存储集群不可用。

除此之外,微软还在Azure状态页上列出了一个软件错误,该错误影响跨多个服务的存储配置超过一个小时。

07.2017年 3月21日,Microsoft Office 365

由于用户身份验证问题,一些微软业务和消费者云服务,包括Office 365存储和电子邮件服务都无法访问。

宕机事件还使得客户无法访问OneDrive存储,Skype协作,Outlook电子邮件和Xbox Live等消费产品。

08.2017年 5月22日,在IBM云上的Lululemon

热门瑜伽网站Lululemon出现服务中断问题,其CEO将主要责任归咎于IBM的托管云服务。

Lululemon CEO,Laurent Potdevin在接受CNBC(美国全国广播公司财经频道)采访时直接指责在IBM云环境下电子商务销售额遭受了损失。并表示他的团队由于这个问题连续工作了36个小时,并已经向IBM CEO,Ginni Rometty表达了不满。

Potdevin在谈及对IBM云计算时称,“我们正在考虑我们的选择”。

09.2017年 6月19日,Microsoft Skype

主要分布在欧洲的微软Skype用户由于遭受明显的分布式阻断服务,接连出现宕机问题。

6月19日,Skype用户开始抱怨多个小时的宕机问题。这次宕机持续到次日,用户在通信平台上无法连接,交流信息受阻。

虽然微软没有立即确认DDoS的报道,但一个名为CyberTeam的黑客组织承认该事件是他们所为。

10.2017年 6月28日, 苹果iCloud

多个社交媒体反馈苹果iCloud Backup服务的可用性问题。苹果在系统状态页表示,iCloud Backup出现宕机的用户数量仅不到1%。

受影响的人无法从之前的备份中恢复iOS设备,问题持续了至少36个小时。而在未完成修复时会挂起恢复进程,开启设备保护数据的新备份没是有问题的。

11.谷歌云, 2月15日

2月15日,谷歌应用开发平台的出现了数据库故障引发了不少该平台客户的烦恼。

该问题于接近于中午12点时发生在Google Cloud Datastore上,这是为规模型用户设计的一款非关系型数据库。

在事故中,谷歌PaaS服务Google App Engine的用户经历了长达一小时的错误与延迟情况。

游戏玩家在这次事件中受波及最为严重,因为不少的热门在线游戏使用了谷歌服务。而像Pokemon Go和Snapchat也备受冲击。

12.AWS,2018年 3月2日

3月2日,AWS的宕机广泛影响了大量的Alexa语音助手的用户,并波及到了很多热门在线服务商,如Atlassian、Slack和Twilio。

稍后,亚马逊表示他们位于弗吉尼亚数据中心在早上遇到了强烈东北风暴的冲击,而使得网络连接出现了问题。

这场风暴切断了AWS北弗吉尼亚地区与两个东海岸运营商Equinix和CoreSite连接。

13.微软Office 365,2018年 4月6日

4月6日,大量欧洲、亚州和美国的微软客户的电子邮件账户出现了问题。

其中英国受影响最为巨大,由于Office 365的宕机,许多企业无法发送邮件与登录Skype。

一些用户报告说他们只能使用单点登录来登录那些办公生产力套件。

有些讽刺的是,这次事件距离微软发布全新Office 365安全保护功能后仅一天。

14.AWS,2018年 5月31日

5月31日,因北弗吉尼亚地区的数据中心中的硬件问题,该云巨头又一次出现了连接问题。

其影响时间大约为30分钟,在此期间用户报告说因硬件错误,所有的数据不能得以被全部再存储。

该宕机是“由数据中心和一些网络设备中的一些物理服务器上的电力事件引起的”,AWS在事后报告中写到。

AWS的核心EC2服务,Workspaces 虚拟桌面服务以及Redshift数据仓库服务都受到了影响。

15.微软Azure,2018年 6月17日

由热浪而引发的存储和网络中断使得欧洲的许多微软云客户在17,18日两日间与他们的数据分开了超过5小时的时间。

微软表示,在爱尔兰特别炎热的夏季里,一个在爱尔兰的数据中心恒温系统出现了问题。

16.谷歌,2018年 7月17日

在7月17日的下午,谷歌云的宕机使得Spotify和Snapchat等热门服务又不得不中断。

谷歌方面称,他们在中午就意识到了其负责均衡器的问题。宕机影响了谷歌的开发平台App Engine、Cloud Networking和Stackdriver,后者旨在为公有云用户提供绩效与数据诊断服务。

之后,谷歌发布了一项更新,表示由该事件导致的502问题已在下午1:05时得到解决。

17.亚马逊,2018年 7月16日

如同国内电商们的双十一一样,亚马逊在美国也创造了自己的购物节日Amazon Prime Day(亚马逊会员日)。

但是,在第四届亚马逊会员日当日的开幕仪式后几分钟,大规模的故障使得7月16日的销售陷入了瘫痪。

AWS的发言人表示,这些问题与AWS无关。

但是对于全球电商网站来说,失败就是失败了,这个网站是在据说是世界上最领先的云上托管的。许多消费者乘兴而来败兴而归,得到的只有一个宕机通知。

但尽管如此,但该客户日的销售业绩仍然破了纪录

18.微软,2018年 9月5日

微软发现自己在9月的一周就在两个方面出现了问题。

其一个,9月5日全世界用户都遇到了部分时间时无法访问365 Outlook或Skype for Business的情况。用户报告说,当他们尝试登录微软时,他们会受到一条错误消息,说“受到限制”。

微软将这次终端归咎于Azure后端身份验证系统的更新问题。

与此同时,在4日到5日两天里,微软在圣安东尼奥的数据中心遭遇了雷击,这导致了美国中南部区域中Azure和Office 365服务的中断。

19.Facebook 2018年 11月12日、11月20日

对于社交网络巨头来说,11月是糟糕的一月,两次宕机事件影响了大量的企业协同产品用户。

包括Workplace协同工具在内的Facebook服务在11月12日出现宕机,在服务恢复前,其收到了数千起投诉。

短时间内,“FacebookDOWN”成为了Twitter上的热门话题。

仅仅一个多星期后,11月20日,Facebook又出现了一起宕机事件,这是Facebook自8月以来出现的第三起重大停机事件。

有3/4的用户报告称从早上8点到下午早些时候,他们遇到了全面宕机或登录困难问题。

20.微软,2018年 11月18日

据微软披露,11月18日,一些用户无法登录Azure和Office 365服务。

这次宕机影响了许多需要身份验证而登录云服务的用户,并横跨整个欧洲、亚太和美洲地区,从当地时间周日晚上11:39起开始影响Azure和Offic 365服务。

可见,公有云服务每年都会或多或少出现一些故障,人为原因、机器故障、软件bug……等等

虽然原因不同,但是导致的结果只有一个——相关云平台上的客户遭殃。或丢失数据,或停止服务,或影响创新。 

业内人士戏言:“世上没有不宕机的云。”对于用户来说,选择多云做好互备和灾难应急建设才是一劳永逸的,毕竟没人知道:

下一次大规模公有云宕机什么时候发生?

你可能感兴趣的:(阿里云,服务器,云计算,运维)