复盘携程瘫痪12小时,故障还是隐患

北京时间5月29日,携程在纳斯达克(NASDAQ:CTRP)收报于80.22美元,跌幅为1.59%。这与此前人们所预计的大幅下跌并不相符。5月28日,携程曾面临从上午11时至晚间约11时长达12个小时的系统瘫痪、无法访问。 

一位在美投资人告诉《财经》记者,之所以这次跌幅较小,是因为资本市场认为这只是一个普通的IT故障,虽然时间长,但就是个故障。“如果我们从中看到了携程对信息安全和IT的长期不重视,这个事情再发生一次,股价就一定不是这样。”他说。 

携程官方表示,从上午11:09,携程官网及APP发生故障陷入瘫痪,直至28日晚间22时45分,除个别业务外,携程网站及APP恢复正常,数据没有丢失。对于此次全面瘫痪的原因,携程官方也做出解释:经携程技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致。    

但持续数小时未恢复成功,使得人们此前怀疑数据库是否没有备份,进而有了“数据库被物理删除”的说法。 

猎豹移动安全专家李铁军称,他们观察整个事件,首先排除的是黑客攻击,因为黑客攻击往往带有很强的目的性,入侵之后往往只是悄无声息拿走核心数据,一般不会进行破坏性操作,更难做到备份还原后又继续删除。 

关于“物理删除”这个说法,一位黑客告诉《财经》记者,他认为可能性几乎没有。“这种说法太危言耸听了,除非机房被炸了,硬盘被粉碎,才有可能出现物理删除。”他表示,大公司出于保护整体数据完整性的考虑,一般设计功能的时候是不会提供物理删除的,只提供逻辑删除。“数据删除不可肆意,要么内部有鬼,要么黑客是上帝。”另一位黑客告诉《财经》记者。 

数盟CTO、前百度移动安全技术总监张宇平向《财经》记者分析称,黑客的特点有二:以不被发现作为很重要的指标;以能够得到长久的数据并由此带来持续利益。从目前来看,携程的遭遇与此两点不符。“携程内部人员更具备易操作性。”他说。 

5月28日下午,携程一位内部员工在社交网站上爆料称是因为某个根目录被误操作删除,现在每个业务的代码都在重新部署。同时一份疑似携程的内部邮件表示:Croller(携程用的内部版本管理系统)中保留了上次编译后的版本,fat(生产环境)到prd(预发布系统)所有Windows环境编译后的源代码被删除。如果这份邮件属实,那基本可以确认此次事故是由于业务代码被删除引起的。这与携程最终的确认原因相符。 

“从现象上看,确实是携程的应用程序和数据库都被删除。最大的可能还是运维人员在正常的批量操作时出现了误操作。”腾龙君悦科技SEO主管在微博上表示,最大的可能性是携程网被“乌云”曝光了一个安全漏洞,漏洞涉及到了大部分应用服务器和数据库服务器;运维人员在批量操作执行修复漏洞的脚本时,无意中写错了删除命令的对象,发生了无差别的全局删除,所有的应用服务器和数据库服务器都受到了影响。 

多位安全人士在接受《财经》采访时均认可以上说法,携程最终亦确认是误操作。只不过这个段子在运维圈子中作为笑话流传了很多年,没想到居然真的有这样一天。 

张宇平亦表示,如果是携程内部人员所为,至少说明携程对于内部的管理不到位,或者是线上环境和其他环境隔离不够,或者是角色和权限的划分、控制以及记录不够。 

那么,为什么恢复时间竟长达12个小时? 

携程官方给予《财经》记者的回复称:一般来说,类似携程这样的大型网站承载着繁多业务,其后台是一个由SOA(面向服务)架构组成的庞大服务器集群,看似简单的一个页面背后由上千个应用子系统以及上千个Web Service组成,而每个应用子系统和每个Web Service之间都存在着相互调用的依赖关系。 

发生事件后,携程的技术人员除了需要恢复生产服务器上的执行代码以外,还需要做的是恢复并确保每个应用子系统以及每个Web Service的功能正常,同时确保应用子系统与Web Service间的调用关系得以正常执行。 

这种验证性的操作需要携程的工程师及运维人员通力合作,尽快恢复生产代码并通过反复地、持续性地调试以确保应用子系统与Web Service功能的正常运行。 

但InfoQ高效运维群智锦针表示,现在SOA架构的网站,都是由成百上千个应用子系统组成,平时经常发布的可能不到20%的核心子系统。而且发布时都是做加法,很少完全重新部署一个应用。一旦遇到需要所有系统都重新部署的极端情况,管理协调的问题、应用之间的依赖关系,还有很多平时欠下的技术债都集中爆发了,更不用说很多不常用的子系统,上线之后就没人动过,一时半会都找不到能处理的人。而且,在这样的高压之下,各种噪音和干扰很多,运维工程师的反应也没有平时灵敏。 

“99%的公司没有做数据管理流程、备份和恢复的演练。”多备份CEO胡茂华称。这就好比你在每个楼梯的转角处都放置一个灭火器,但遇见火灾时,你真的知道怎么打开它吗? 

除了缺乏相应的灾难预警和应急方案,另一个导致事故的原因在于,长期对IT建设的不重视。 

一位前艺龙信息安全负责人在知乎上撰文称,携程历来对信息安全并不算重视,从之前信用卡用户信息泄露、到忽略白帽子黑客上报的漏洞、再到本次的事件,不管始作俑者是内部员工、竞争对手还是恶意的攻击者,携程自己的信息安全管理混乱在此次事件中肯定是重要因素之一。“按照目前的方式和速度来看,估计携程缺少切实可行的全系统瘫痪应急预案。” 

携程的CTO是叶亚明,梁建章2012年将他从ebay挖到携程。叶完成了将携程从一家传统互联网公司向无线的转变。内部人士称叶亚明的野心在于他想对携程技术架构做根本性的革新,但机不逢时,2014年3月携程发生信息泄露故障。 

而过去两年正是携程不计盈亏、大规模收购、扩张的两年,去年第四季度,携程迎来自己成立十年以来的首次亏损(亏损3600万美元),其中运营亏损为6500万美元;今年一季度再次亏损2000万美元,营收则实现46%的增长,达到3.73亿美元。 

快速的扩张发展或是其产生安全隐患的重要原因,而这已是中国互联网企业的普遍现象。一位曾经在EMC(一家创建于1979年美国信息存储资讯科技公司)工作过的高层向《财经》记者称,每年数据保护业务全球热卖,中国区的购买数额每每都是全球垫底,说到底还是中国企业不重视。再加上国内竞争对手夸张的性能宣传,所谓超低的价格,很多客户也就是买个摆设。 

然而,当互联网已经成为社会的基础服务,人们使用互联网就像使用银行和电信的服务,就像使用电、水和公路时,错误就开始变得越来越无法被容忍。几年前支付宝大规模故障受影响的也许只有几千万人,可如今它影响了上亿人。从这点来看,完善IT架构和安全保障一定会成为互联网公司未来几年的发力点。 

猎豹移动安全专家李铁军称,预防灾难性事件发生,需要做到两点:1.严格的权限管理(内控)和灾难预防;2.备份,意外发生在最短时间内恢复。 

携程官方回复称:已在系统上做了改进,规范并杜绝技术人员错误删除生产服务器上代码的操作。同时保证,数据和数据库并未受到此次事件的影响,用户订单数据也完整无损,请用户放心并继续使用携程网站及App。 

携程事故再度提醒了中国互联网企业,在注重高速发展的同时应不断提高自己的安全和灾备能力。

你可能感兴趣的:(IT运维)