骄阳似火 细数史上数据中心火灾 如何才能重蹈覆辙?

640?wx_fmt=gif

骄阳似火的6月,北京亦庄某数据中心机房柴油机发生一起起火事故,所幸并未出现去年多家金融机构设备大规模宕机。本次起火事件,缘起亦庄地区发布的30天限电令,当地不少数据中心开始使用柴油发电机进行带载。


亦庄电力公司对泰和变电站、博兴变电站和科创街变电站进行改造,其中泰和变电站、博兴变电站改造期间为6月1日至15日,科创街变电站为6月15日至6月30日,共计30天时间。在进行改造期间,用电单位务必将平日用电负荷减少、限制25%。于是,部分数据中心开始使用柴油发电机进行带载,以保障数据中心的正常运行。


多家金融机构和73家村镇银行的所有设备宕机,服务全部中断长达7小时以上——去年亦庄某数据中心的断电事故,仍令人心有余悸。调查发现,当时两台老旧的UPS负载过高,切到旁路,很快三台柴油发电机接连出现“失磁”报警,停止运行,导致机房全部设备断电,系统宕机……


在大多数人的印象里一定会认为数据中心和火灾没有太大关系,因为数据中心里除了电子设备就是电子设备,没有太多易燃物品,再加上数据中心具有完善的消防监控系统,认为就算有些火灾隐患也很快就消去了。然而,实际恰恰相反,数据中心却成了火灾的高发行业。


  • 2017年4月,拥有信息黄埔之称的北京邮电大学校园核心机房着火受损,众多北京高校校园网纷纷崩溃。

  • 2015年11月16日阿塞拜疆人都在当天中断了互联网连接,其原因是其国内的三角洲电信公司的一个数据中心设施发生了火灾;

  • 2015年10月13日,Windows Azure上海数据中心发生故障,是由服务器所在机房着火断电引起,导致Azure基础设施离线无法提供正常服务,受影响的用户包括金融、互联网、房地产;

  • 2015年5月26日早晨,远在美国亚利桑那州平顶山的苹果工厂发生火灾,起火点位于该公司数据处理中心屋顶光伏项目;

  • 2015年1月10日亚马逊公司正在美国弗吉尼亚州建设的一座数据中心着火。

  • 2014年7月20日重庆农商行数据中心发生重大火灾,整个机房全部烧毁,直接损失达到一个亿以上。

还有更多没有被媒体报出来,没有造成严重影响的火灾就更数不胜数了,作为高科技技术最为集中的场所,数据中心有各种各样高技术的消防监控系统,为何火灾还是屡禁不止?

骄阳似火 细数史上数据中心火灾 如何才能重蹈覆辙?_第1张图片

 

数据中心起火原因

 

数据中心作为提供信息资源服务的基地,应具有非常好的机房环境、安全保证、网络带宽、主机的数量和主机的性能、大的存储数据空间、软件环境以及优秀的服务性能。


数据中心火灾的主要特点是: 散热困难、烟气量大、用电量大、电气火灾居多、火灾损失大、扑救难度大、节点易燃烧。
在数据机房发生的各类事故中,火灾事故约占80%左右。主要包括以下几种:


1、电子计算机本身起火;
2、配套设备或附属装置起火;
3、空调设备或电气设备起火;
4、外来火灾侵扰。

 

骄阳似火 细数史上数据中心火灾 如何才能重蹈覆辙?_第2张图片


对于起火原因,据日本计算机制造商对用户所作的调查表明:
1、计算机故障占3.4%;2、交换器与配电箱故障占6.9%;
3、设备装配错误占10.2%;
4、调节器故障占10.3%;
5、火焰蔓延引起的第二次火灾占17.1%;
6、与计算机无关的其他原因造成的火灾占52.1%。  

 

选址的门道很深

数据中心最大特点正是高耗能,整个数据中心投资最大的部分也正是供电系统。供电系统是整个通信系统的动力来源,它相当于一个人的心脏和血管,负责把能量输送到系统的每一台设备,是其他所有系统能够正常工作的前提和基础,因此,稳定的供电系统成为了数据中心运营商的重要考量因素。


据悉,北京市发改委于2014年出台了产业禁止目录,其中将PUE大于1.5的数据中心列为禁止项目,2015年8月又进一步限制在城六区新建数据中心。由此可见,数据中心是的建设选址不仅要保证建筑物的质量,还要保证配套设施的完备性和长期运转的高可靠性,并要考虑到在用电高峰季节临时性限电政策对数据中心带来的影响。


以Facebook公司为例,该公司计划在美国亨茨维尔北部建造一座全新的数据中心,看中的正是当地可提供可靠的可再生能源、强大的本地基础设施。在国内,中国电信开普勒(佛山)数据中心则直接将园区选在佛山福能大数据产业园之中,依托的是其股东佛山电建集团安全可靠的电力资源,不仅可享受优惠政策,还可享受低廉电价。据悉,开普勒数据中心实现了真正的双路供电,电力来自三个不同变电站,分别引入四路电缆,实现了高压有联络,同时配有柴油发电机与UPS系统,供电保障率99.9999%。未来福能发电厂为开普勒高压室提供10KV的电力的备用通道。

 

冷却系统上大做文章

据悉,电力成本占数据中心整个支出成本的50%-70%,其中一半是机器设备散热需要的空调费。行业数据显示,数据中心设备运行时的最佳温度为22℃,上下浮动不能超过2℃。在基准温度情况下,温度每升高10℃计算机的可靠性就下降25%。


然而,大多数的数据中心冷却和电源的容量如今都已过度配置,通常所部署冷却容量比必要的冷却容量要高出三倍。根据调研机构Gartner公司的调查,数据中心40%的冷却成本被浪费。如何更科学合理地节能降耗,成为摆在数据中心运营商面前的难题。国内外不乏一些独辟蹊径的路数,诸如微软将数据中心沉入海底,腾讯将数据中心建在山洞……


难道只有这些非常规手段吗?实则不然,有一些切实可行的节能降耗方案也取得了显著的收效,诸如机房采用封闭冷通道以及精确下送风方式,地板结构下沉,机柜热通道背靠背,优化气流组织,避免冷热气流混合,提高制冷效率;采用双环路管道,提高空调系统安全和可靠性;利用天然发电机余热加热水,给溴化锂制冷机提供热源,回收利用了余热,达到了节能减排目的——这些常规却有所突破创新的举措正是开普勒数据中心进行的积极探索,并借力模块化机房设计等一系列手段,实现PUE值可达1.31.4的指标。

 

运维管理能够防微杜渐

工欲善其事必先利其器——可靠的电力保障与高效节能的冷却系统正是数据中心提供稳定服务的基础,然而光有硬件和技术支撑还远远不够。对于数据中心发生的故障,行业专家认为故障多发的原因还是在运维管理上,正所谓“三分技术,七分管理”,数据中心的故障大多源自于人祸。


运维工作对数据中心来说至关重要,关乎整个数据中心业务的正常运行。一旦突发故障,具备一定的专业技能和应急能力的运维团队可及时对故障原因作出准确判断并迅速找出解决方法,避免宕机风险,从而达到防微杜渐的效果。


在实践中,运营商需要对数据中心里面的温湿度、电能、水流及风量等进行全面实时的监控,以期发现潜在问题,通过预警机制及相应的流程做到防患于未然,并为应急措施及节能措施提供可靠的指导依据。数据中心的日常业务运维主要包括日常检查、应用变更、软硬件升级以及应对突发故障四大方面内容。其中,日常检查作为业务运维的基础性工作,其意义非同小可。


如今,不少数据中心运营商都采用了全自动化二维码巡检系统,可自定义巡检路线,自动生成巡检任务,手机APP自动接收巡检任务,并一键生成巡检报告,自动评估巡检健康度,为客户提供高效的智能化运维服务——据悉,这种系统是由开普勒数据中心首创,并得到了业界的普遍认可。


除了日常运维,数据中心的应急预案也很重要,建设灾备系统正是其重要的环节。其实,我国早在2007年时就颁布了首个关于灾备的国家标准《信息系统灾难恢复规范》。现在的数据中心承载的业务越来越重要,引入有效的灾备技术,在性能恶化时提出预警,使企业能提前感知并采取相应的修补动作,避免宕机事件的发生,能减少数据中心发生故障时带来的损失。


然而,不要以为有了灾备系统,就可以高枕无忧了,如果后期不对其进行管理,从不更新灾备预案,这样的灾备系统在面临突发状况时也只能是形同虚设了。

 

竞争压力激增,转型机遇来袭

实际上,除了供电系统与运维管理系统之外,影响数据中心正常运维的因素还有许多,诸如充足稳定的网络资源、安全的消防保障等。然而,不少数据中心服务提供商忙于能够迅速带来经济效益的一线业务投入,却忽略了包括应用在内的软件的运维问题。


伴随着以互联网应用服务为载体的数据中心建设需求日益激增,包括运营商、互联网巨头在内的众多企业纷纷加入到投建数据中心的热潮之中,由于投建数据中心的技术门槛并不高,一时间泥沙俱下。因此,选择靠谱的数据中心服务供应商也不是件易事。


如今,数据中心各服务商已在技术、服务、价格、宣传等领域全面展开竞争,最终比拼的还是其技术实力。凭借佛山“互联网+”创新创业产业园的基因,借力佛山市福能发电厂,融合直连中国华南地区国际出口电信骨干网资源优势,背靠珠三角经济带,总投资80亿元、规划建设2万个机架的中国电信开普勒(佛山)大数据中心将于今年6月底投入正式运营。


面临数据中心业务模式日益趋于定制化、高端化的局面,开普勒数据中心的业务种类由当初的网站和服务器托管、应用托管等基础业务,进行了更大范围的延伸拓展,其增值服务覆盖了网络/服务器实时监控及告警、现场软/硬件支持、入侵检测、流量清洗、链路测试、网络故障排除、巡检监控等多项内容,可以满足客户多样化及垂直专业化服务的需求。届时,该数据中心可辐射至广东、广西、福建等华南地区,满足行业用户异地备份的需求,并可满足华南地区大中企业客户超万家中小小型企业的发展需求。


未来,智能化运维管理将在数据中心行业得到越来越多的重视,将科学、系统的理念以及专业的管理和服务贯彻数据中心整个生命周期,将会为客户创造最大化的价值,也将为整个数据中心产业带来新气象。


640?wx_fmt=png

资料免费送(点击链接下载)

史上最全,数据中心机房标准及规范汇总(下载)

数据中心运维管理 | 资料汇总(2017.7.2版本)                                                    

加入运维管理VIP群(点击链接查看)

《数据中心运维管理》VIP技术交流群会员招募说明

加入学习群扫描以下二维码或者添加微信:

wang2017bj

640?wx_fmt=jpeg

你可能感兴趣的:(骄阳似火 细数史上数据中心火灾 如何才能重蹈覆辙?)