随着大数据、云计算、智慧城市、移动互联网和物联网等应用的快速发展,各行各业对于数据中心的需求量越来越大。数据中心单体规模越大、系统越复杂,其脆弱性也越高,对于数据中心运行维护管理水平的要求也就越高。
数据中心运维管理的范围很广泛,也是数据中心生命周期中最长的一个阶段,主要包括基础设施、各种IT设备、信息与数据、应用软件等。运维管理的好坏很大程度上决定了数据中心的使用寿命。本章主要介绍京东云华东数据中心在基础设施运维管理方面所做的努力。
数据中心设施运维管理是为了确保数据中心基础设施为电子信息系统提供稳定可靠的运行环境,确保电子信息系统和其支持系统能够安全、稳定、可靠、持续并高能效地运行,实现运行维护的及时性、规范性、安全性和可用性。
设施运维管理的基本目标包括:
1) 对与信息系统服务有关的数据中心各项管理对象进行系统地计划、组织、协调与控制。
2) 依托于已交付的基础设施,通过科学的管理,最终使数据中心得以实现服务与经济上的目标。
“三分技术,七分管理”。大量的事实表明,数据中心运行的好与差,评判标准很大程度上是由管理水平的高低所决定的。一个数据中心即便采用了最新的技术,如果运维管理不当,一定不是一个好的数据中心。一个好的数据中心会通过科学的运维管理,充分利用本身现有的技术和设备,将运行成本降到最低,而使能源利用最大化。
京东云华东数据中心设施运维管理还有一个非常重要的目标是“建立一套持续改进的机制”,这点往往容易被人们忽略。数据中心设施运维管理与数据中心设施系统建设阶段的项目管理有很大的不同。项目管理是一次性的,必须保障“当前最佳”,因为没有机会推倒重来;而数据中心运维管理是一个不断循环迭代的过程。“一套持续改进的机制”可以保障数据中心运行效率不断提高、运行成本不断降低。数据中心的设施运维工作是一个不断改善的过程,正所谓“没有最好,只有更好”。
所谓运行,是指对数据中心设施系统与设备进行日常地启停控制、参数设置、状态监控和优化调节,以确保电子信息系统和设施系统自身获得安全、高效的运行环境。
所谓维护,是指为保证数据中心设施系统与设备具备正常运行所需要的条件,达到提高可靠性、排除隐患、延长寿命期等目的所进行的工作,包括定期巡检、检测、维护和保养等。
设施运行维护对象应包括如下系统:
电气系统
高压配电设备
电力变压器
低压配电设备
不间断电源系统,UPS和电池
配电列头柜
柴油发电系统
防雷接地系统
照明设备
电缆和母线槽
暖通系统
冷源系统
精密空调
水管路系统
通风设备
风管路系统
智能化系统
出入口控制系统
入侵报警系统
视频监控系统
电子巡更系统
环境监控系统
设备监控系统
消防系统
消防供配电设施
火灾自动报警系统
消防供水设施及消火栓系统
自动灭火系统
防排烟系统
防火分隔设置
应急照明与疏散指示系统
应急广播系统
消防专用电话
建筑灭火器
人是数据中心设施运维管理的基础,也是管理的核心。京东云华东数据中心的设施运维团队按照工作内容划分为以下两个主要职能:
运维巡检团队:实行7×24小时轮岗工作制,对基础设备设施进行巡检,担任值班工作,第一时间发现故障或问题,并作为管理程序的执行者。主要包括电工、管道工、制冷工等,各个工种的技术员均持证上岗,协同作业。
技术管理团队:对数据中心场地基础设施提供运维技术支持,解决技术问题,承担数据中心场地基础设施一般性的优化改造工程的项目管理工作,即运维管理核心团队,包括运维经理以及暖通、电气、智能化等专业的技术人员。
此外,运维团队还定期组织技术交流分享会,在提升大家实战技能的同时,促进员工之间互相学习。
1) 设备台账制度
给每个独立的数据中心模块建立完整并实时更新的设备台账。台账包括所有关键基础设施设备的清单,并完整记录这些设备设施的运行情况、事件情况、变更情况、维护保养频次等信息。
对影响安全运行的关键设备,如UPS、冷水机组、精密空调等的设定参数以及关键点的报警阀值制定了统一管理制度,结合数据中心实际运行情况经技术讨论后按统一参数值设定,运维巡检人员不可以随意修改。
2) 预防性维护计划
为延长设备的使用寿命,减少设备故障的概率,必须对所有设备设施进行有计划地维护。通过定期检查和保养,是设备设施的某些缺陷或隐患在变得更严重之前被发现。
运维团队根据不同系统的设备情况与供应商充分沟通,按照供应商的建议提前制定年度、季度、月度预防性维护计划。运维人员按照各设备系统的特性、维护流程及规范,及时、完整地落实维护工作,并形成客观实际的记录和报告存档。此外,运维团队还定期对设备运行状态的数据进行统计和趋势量化分析,对于异常的趋势,及时作出报警和相关预案。
3) 维修工单制度
运维人员在接到工单时,能明确获悉工作任务与注意事项,提前熟悉操作流程,做到心中有数;在维修操作过程中,工单也可以起到指导操作的作用;在维修工作结束交单、备案归档。如在维修过程中遇到困难,亦可以向技术管理层及时反馈,做到闭环控制。
4) 操作流程
对数据中心基础设施的所有操作,都事先制定详细规范的操作流程,并要求每一位运维人员在开展运维工作时严格按照流程执行,主要包括:
维护作业程序MOP:根据设备供应商提供的建议,结合数据中心的自身特点指定,用于指导对数据中心关键基础设施设备进行维护、维修、安装、操作时执行的流程。
标准操作流程SOP:所有关键基础设施设备在任何情况下必须严格执行的常用操作流程。比如,启停发电机组的操作流程,UPS转换到旁路带载操作流程,机柜加电流程,故障应急流程等。
应急操作流程EOP:在有可能发生严重故障的情况下应执行的流程。严重故障通常是指有可能使数据中心一个或多个主机房发生大面积宕机的故障。
5) 备件、耗材、仪器、工具管理
运维团队根据设备台账及其分类制定最低备件和耗材的库存清单并及时补充备件和耗材。为规范仓库管理,指定专门的库房管理员,定期盘点库存,公示库存情况。凡申请备件和耗材的运维人员必须实名填写申请单,说明申请缘由和数量,由管理员登记在案。物资的出库、入库必须经由管理员清点记录,其他人不得随意进出库房。管理员需保证库房安全,物资完好无损,不出事故。
将运维用的仪器和工具分门别类放置,每次运维人员交接班时对仪器和工具进行清点,签字确认。对比较复杂的仪器仪表制定相关的操作指导规范。定期对仪器仪表进行校准。
6) 生命周期管理
运维核心团队基于设施设备的合理生命周期,结合风险评估,制定设备维护、升级或更换的计划或预算,及时报告给上级主管部门。
1) 日常巡检及交接班管理
在正常开展运维工作时采用A、B角色配置,至少保证两名不同工种的运维工程师配合巡检,同时保证值班室留人员,及时通报数据中心运行状态异常情况,重要问题就近人员应急处理。
交接班时主要交接内容包括:设备有无异常情况发生;当班遗留工作及完成内容;异常情况简述及处理;上级命令、指示的内容和执行情况;各种工具、仪器仪表、钥匙、工作记录和资料;机房环境卫生情况;提醒接班者应注意的事项及其他问题。在交接班时间内发生事故或异常现象,仍由交班人员处理,接班人员应予以必要的协助完成。
2) 安全防范制度
将数据中心根据重要等级和功能区划分相应的控制区域,对出入权限实行分区、分级管理,对重要区域设置多重认证措施。所有访客一律实名登记,获得相应授权后,在运维工作人员的陪同下方可进入机房区域。
机房区域设有7×24小时视频监控,所有进入监控区的人员活动情况将被监控系统记录保存90天以上。
3) 机房清洁管理
划定保洁区域,定期做好机房保洁工作,保证地板及地板下的无尘状态。在重要区域进行保洁工作时必须有运维人员现场监督和指导。
4) 事件管理
数据中心故障按照影响程度的不同分为四类事件。运维团队制定事件管理流程,明确不同等级事件下相应的处理流程。在数据中心故障发生时,严格按照事件的类型进行升级报告。
事件等级分类
一级事件:关键服务中断,影响SLA(服务等级协议)达成;
二级事件:关键服务组件出现故障,导致不满足冗余条件或服务水平下降,有潜在影响SLA的可能性;
三级事件:非关键服务组件故障,不影响SLA的达成
四级事件:非关键服务组件的质量下降,造成轻微可以忽略的影响
事件升级报告
一级事件 |
二级事件 |
三级事件 |
四级事件 |
|
现场运维工程师 |
3分钟内报告运维主管 |
3分钟内报告运维主管 |
3分钟内报告运维主管 |
运维工程师现场处理 |
运维主管 |
5分钟内报告运维经理 |
5分钟内报告运维经理 |
||
运维经理 |
10分钟内报告运维总监 |
10分钟内报告运维总监 |
||
运维总监 |
5分钟内报告主管VP |
5) 应急响应
设施应急预案演练
针对对应的应急操作流程EOP进行定期的演练工作,旨在发现应急操作时存在的薄弱环节,采取及时补救措施,提高运维人员应对突然事件的团队协作能力和应变能力,缩短突发事故的处理时间,确保数据中心基础设施安全运行。主要包括:
沙盘演练:参与演练的运维人员分别口述在发生紧急情况下自身所应承担的职责及将会执行的方案及步骤。
跑位演练:参与演练的运维人员跑位到模拟故障现场,模拟处理故障,参与人员应清晰地说出故障的处理方案及步骤。
人员安全应急流程
运维团队针对影响运维人员身体健康的人身事故制定应急流程并定期演练,包括设置现场急救包以及联系当地医疗急救机构的方式等。
6) 容量管理
空间容量
主要包括IT设备摆放空间、基础设备设施摆放空间、综合布线线路空间和配线架的管理。
能力容量
主要包括电力供应容量、制冷供应容量、综合布线信息点容量的管理。
运维团队定期填写运维周报和月报,如实记录数据中心空间容量和基础设施使用情况的变化,便于上级管理人员进行能源审计和能耗分析,掌握数据中心的整体利用率,预测业务增长趋势,提前制定扩容或新建数据中心的计划。
7) 能效管理
京东华东云数据中心PUE的计算方法见图10.3.2-1:
图10.3.2-1 京东云华东数据中心PUE计算方法
根据实际运行数据分析,在低压配电系统中,UPS系统用电量占比约68%~75%,冷源系统系统用电量占比约15%~20%,精密空调系统用电量占比约3%~5%,照明、通风、办公等其他用电量占比不到5%。所以,数据中心能效管理的目标是在保证电子信息系统安全高效运行的前提下,重点对UPS系统和冷源系统的运行控制策略进行合理优化,降低整体PUE。
UPS系统的优化控制
由UPS效率曲线(图10.3.2-2)可以得出,负载率在10%以下时,UPS效率基本小于80%;负载率在10%~20%之间,UPS效率在80%~90%;负载率大于20%后,UPS效率大于90%;在负载率30%以上时,UPS效率曲线接近于直线,负载率的变化几乎不再影响UPS效率变化。
图10.3.2-2 UPS效率曲线
京东华东云数据中心采取UPS逆变器模块休眠技术,前期在UPS低负荷运行时,关闭一定数量的模块,让单机UPS达到较高的负载量,从而提高UPS的效率。这样,只要使得UPS单机负载在30%以上,在低负载时效率已经可到达几乎满载时的效率。
另外,休眠功能还有一个令数据中心担心的问题是休眠后能否及时唤醒的问题,若休眠模块不能及时唤醒,那么,带载的模块就可能出现过载保护的情况。本项目采取的运行策略是,在带载逆变器负荷率大于60%时,就唤醒休眠的模块带载。
此外,UPS逆变器模块休眠还采用自动轮换技术,每间隔一定时间,休眠的逆变器模块自动唤醒,而带载的模块自动休眠。这样一来,不仅自动测试了UPS休眠功能,也使得逆变器模块在整个生命周期内带载时间均衡。
冷源系统的优化控制
对冷源系统冷量的瞬时值和累积值进行监测,冷水机组优先采用由冷量优化控制运行台数的方式。对于京东云华东数据中心选用的三级压缩离心式冷水机组来说,40%~80%负载为其高效率区。所以根据系统负荷的变化,合理控制冷水机组的开启台数,使机组负载经常保持在高效区运行,对于机组节能有显著效果。
图10.3.2-3 三级压缩离心式冷水机组能效曲线
京东云华东数据中心冷源系统的设计供回水温度为10/16℃。在实际运行过程中,根据室外环境的变化调整冷冻水供水温度设定值可以节省冷机功耗。有研究表明,冷冻水供水温度提高1℃,冷机功耗可降低4%左右。提高冷冻水供水温度还能延长自然冷却工况的运行时间。经过理论测算,当供水温度为10℃时,自然冷却工况可运行3.5~4个月左右;当供水温度为12℃时,自然冷却工况可延长1个月左右。而实际情况表明,当供水温度提高到15℃甚至更高,全年可使用自然冷却的时间长达半年。而且14℃的供水温度依然能保持机房环境温度在26℃左右,符合GB50174-2017的推荐温度。
在自然冷却状态下,关闭冷水机组使其进入待用状态,只开启冷冻和冷却水泵、冷却塔,保持供水水温在16度以下。在完全免费制冷季切换到常规制冷季过渡时段(即气温小幅升高基本稳定,但未到常规制冷设计室外状态点),可先开启一组冷源设备,将冷水机组和冷却塔切换为常规制冷状态,待该组冷源供冷稳定后关闭;随气温缓慢升高,按照以上操作,逐步增加切换机组的数量,直至将全部冷水机组切换为常规制冷状态,自然冷却工况结束。从常规制冷季到完全免费制冷季,可按完全相反的顺序进行操作切换。
对于加装了变频器的电动设备,比如水泵和冷却塔,保证设备频率随冷量变化动态调整很重要。前文中有提到,变频设备的流量与频率比成正比,功耗与频率比的三次方成正比。多台并机、降频运行可以极大地节省设备功耗。不过为避免水泵本体过热,频率不宜低于30Hz。
图10.3.2-4 京东云华东数据中心变频水泵的测试验证数据
图10.3.2-5 京东云华东数据中心变频水泵的功率曲线
精密空调系统的优化控制
京东云华东数据中心的精密空调全部采用EC风机,对EC风机的优化控制可以帮助降低精密空调系统的能耗。如下图所示,横坐标表示EC风机实际运行风量与额定风量的比值,纵坐标表示EC风机实际功耗与额定功耗的比值。可以看出,随着EC风机风量的减少,功耗不断下降。现场实测试数据显示,50%以下风量时,功耗下降并不明显,而且运行风险增大,所以EC风机的风量设置不宜低于50%。当主机房IT负载未达到满载时,增加精密空调运行数量,降低单台空调风量有助于节能。
图10.3.2-6 京东云华东数据中心实测EC风机风量比与能耗比的关系曲线
照明系统的优化控制
京东云华东数据中心所有主机房均采用分布式照明智能控制系统。人员进入机房间时灯具根据感应打开该部位灯具,人员离开时灯具则按设定的延时时间自动关闭。无人员进入机房时灯具能满足运维监控的最低照度,达到节能与自动控制的目的。
京东云华东数据中心是按照世界一流数据中心的理念设计和建设的,按照国际先进的运营管理模式投入运行,并为之设计了一套先进、可靠的智能化基础设施运维管理平台进行系统性支撑。
系统平台围绕着以下目标进行设计和建设:
能高度稳定可靠地监控园区环境、各相关系统和设备的运行状态,为运维管理提供必要信息;
整合园区内IT系统与数据中心基础设施的管理,架起两者间的沟通桥梁,分析电力、冷却、空间、服务器、存储及网络带宽等相关资源的数据,最大化数据中心的运营效率,保障数据中心的可用性。
以各类数据库(全文数据库、多媒体数据库和关系数据库)为管理工具,利用海量全文数据库技术、数据加密和压缩存储等技术,实现监控实时化、资产数字化、流程系统化、业务流畅化等,从而达到对 IDC 业务涉及到的所有部门与资产统一管理的目标。
通过规范流程管理,提高数据中心管理工作效率并提供安全舒适的工作环境;
节省数据中心运行管理费用,达到短期投资长期受益的目的;
软、硬件均采用模块化结构设计,适应发展需要,做到具有可扩展性、可变性,适应环境的变化和工作性质的多样化,同时满足今后与京东总部的数据中心云平台对接的基本要求。
京东云华东数据中心园区包含4个数据中心模块,每个模块配置一个独立的监控中心,整个园区设置一个综合监控中心ECC(位于园区中心)。
模块级的监控系统对基础设施的监控内容包括:电气部分(UPS、ATS、精密配电柜、智能电量仪表、防雷开关、蓄电池输入开关);动力部分(精密空调、冷水机组、水泵);环境部分(温湿度、漏水监测、可燃气体浓度监测等)。系统对被监控设备进行实时的监测和展示。其集成的子系统包括:高压电力监控系统(含柴油发电机、10KV进线柜、馈线柜、直流电源屏、变压器、配电开关监测等)、柴发供油控制系统。
园区级的系统平台主要由四大功能模块组成:基础设施、客户服务、客户自助服务、大屏幕展示。这些功能模块涵盖 IDC 涉及的基础设施运维监控及业务流程管理方面,例如:实时监视、业务流程管理、资源视图、值班 OA 等,对所有业务流程进行分类模块化管理,流程完善、清晰。系统还针对四大功能模块基于 Android 与 IOS 移动终端开发了微信操控平台, 方便各部门人员与客户对 IDC 基础业务的实时操控。
园区级的监控平台可实现以下功能:
可用性管理,可视化展示各设备设施实时状态,实时掌握可用性状况;
业务流程规范化管理,变更风险管控,降低变更带给业务的影响;
复杂事件分析处理,准确定位故障;大数据分析,智能预警;
设备部署合理,平衡各维度容量综合利用率,避免单项容量短板;
可视化容量管理,直观展示容量使用情况及趋势分析,扩容决策及时准确;
提供多维度运行分析报告,为运营决策提供数据支持;
重大故障可实时准确提供数据中心应急预案;
系统架构包含现场设备数据采集层、现场设备监控层和集中监控层。
现场设备数据采集层:由各种I/O采集模块等组成,连接所有传感器和被监控设备,实现监控平台与被监控对象的数据通讯。所有硬件采用模块化架构,I/O模块采集传感器数据后通过系统配置实现对所有传感器的数据匹配对应;各种智能设备直接接入现场监控层。
现场设备监控层:由多台嵌入式服务器或独立网络控制器组成,负责收集与处理由现场设备采集层发送上来的数据。现场应根据系统总线数量、监控单元的处理能力、机房物理分区等条件设置嵌入式服务器或独立网络控制器。
模块集中监控层:采集现场设备监控层上传的数据,对本模块内的现场监控服务器进行集中管理,实时监测本块组内基础设施的参数、状态,并提供IE远程浏览服务。同时,使本模块的监控数据具备上传至园区综合监控中心综合监控层的能力。
集中管理平台配置了“双服务器+双数据库”,实现容错配置。
图10.3.3-1 模块级监控系统界面(一)
图10.3.3-2 模块级监控系统界面(二)
京东云(华东)数据中心综合智能监控管理平台,可以实现对数据中心各设备和系统的统一监控与管理,减轻维护人员工作负担,同时提高整个系统的运行可靠性、稳定性和兼容性、可扩性,实现机房的科学管理。
图10.3.3-3 ECC控制中心大屏幕系统
1) 园区系统平台架构
着眼数据中心园区的整体规划,系统采用“分布式”结构,满足全天24小时运行,自动故障报警监测。系统能在分布式结构的基础上方便实现新设备、新子系统的接入。系统预留北向接口,为京东总部的数据中心云平台提供数据。
图10.3.3-4 园区级监控平台架构图
1) 基础设施模块功能
基础设施管理模块是集高压供电系统、低压UPS 保障系统、冷水控制系统、环控系统、消防报警系统、视频监控系统、门禁系统等实时监控、操作为一体的操作平台。基础设施模块的构成如图10-4-6所示。
图10.3.3-5 基础设施模块构成图
1) 客户服务模块功能
客服模块保证第一时间受理客户的需求,转发至相关责任部门进行下一步处理,并对工单进行记录跟进,确保 IDC 机房流程的顺畅。客户服务管理模块的构成如图10-4-7所示。
图10.3.3-6 客户服务管理模块构成图
1) 客户自助服务模块功能
客户自服务模块支持客户对自有设备的查看,以及对 IDC 机房日常需求的申请发起。客户自服务模块功能如图10-4-8所示。
图10.3.3-7 客户自服务模块构成图
1) 大屏展示模块功能
通过该模块可以动态的展示机房内重要设备的关键参数,实时直观地显示各系统设备的运行数据、运行状态、机房内的情况、各子系统相关拓扑图。大屏幕展示模块构成如图10-4-9所示。
图10.3.3-8 大屏展示模块构成图
京东云华东数据中心是京东技术转型的一个全新尝试。从它目前运营的稳定情况来说无疑是成功的。这是一个可贵的开始,意味着京东厚积薄发的技术实力得到了实践的验证,也为今后在数据中心行业的技术探索增强了信心。
相关阅读
京东数据中心主要基础设施系统(一)
京东数据中心主要基础设施系统(二)
本文来自:【京东数据中心构建实战】如需购买可以通过京东商城,或者咨询小编微信:jinruitongbj
资料免费送(点击链接下载)
史上最全,数据中心机房标准及规范汇总(下载)数据中心运维管理 | 资料汇总(2017.7.2版本)
加入运维管理VIP群(点击链接查看)
《数据中心运维管理》VIP技术交流群会员招募说明
扫描以下二维码加入学习群