随着2017年中国“量子卫星”“量子计算机”等重大科研技术的突破,2018年云计算进入2.0的飞速发展时代,智慧城市信息化建设、应用数据量的井喷,使数据中心基础设施的迅速落地建设、为用户提供高效节能的云设施服务。数据中心运维管理工作作为数据中心持续运行重点保障任务,其工作范畴涉及多门学科,需要合理的运维体系和具有创新性、爱专研的运维团队来为后续运维工作奠定基础。
同时,云计算2.0高密度虚拟化架构化,越来越依赖于基础设施的支撑,对数据中基础设施的可靠性、持续性、大功率、时效性、模块化、自动化等提出了更高的挑战性,数据中心需要实现高效运维。那么如何实现?
首先,我们要明确数据中心运维管理对象。
数据中心运维对象包含了机房基础设施、IT设备、系统和数据、运维管理工具、运维人员等。
其次,我们要设立有效管理的目标。
数据中心运维管理过程是数据中心全生命周期中最后一个阶段,也是历时最长的一个阶段,数据中心运维管理也是依托于已交付的数据中心基础设施之上。通过有效的管理,最终使数据中心得以实现服务与经济上的目标,实现运维管理的持续性、时效性、标准性、安全性和可用性5大目标。
然后,我们要明确运维团队的工作职责与需要掌握的技能。
由于数据中心的持续性特性,需要由7*24小时运维人员进行技术支持运维服务,运维团队主要职责是持续保障数据中心运行相关的基础设施系统设备稳定连续运行,并掌握数据中心各类设备的工作原理、操作方法、初步故障排查诊断的技能。
因此,组建一支高综合水平的运维团队是做好数据中心运维管理工作的根本,运维团队的建设就会变成运维管理工作中非常重要的一项工作内容。
下面我们重点讲述运维团队的建设:
运维措施
“人”
数据中心高精度设备、复杂的系统对运维人员技术提出了新的要求,需要人员必须掌握专业所需的技能,周期性对运维人员的日常工作规范化运维操作、应急响应、故障排查进行开展技术培训和演练,通过演练总结经验,完善、运维指标、运维技术标准、应急流程,提高团队综合应急响应能力。
“体系”
根据ISO9000质量管理体系标准,建立设施运行、系统巡查、数据采集、指标测试标准化等标准化记录表单、完善设备运行管理、使运维质量管理制度化、体系化,提高运维品质,定期对运行管理制度进行经验总结,修正归档、统一发布的流程标准管理方法。
运维体系是运维的基石,根据ISO2000 IT服务管理体系建立数据中心ITSM(IT Service Management)IT服务管理流程,对各设备、系统操作流程、应急响应流程进行设计、建设,通过对运维体系的建设、提高IT运维服务质量,降低设施事件发生的频率和影响,对运维成员流程文件输入、输出的理论培训、实操培训,使流程不“固化”,流程更清晰、责任分工更明确,考核量化,文档规范化等。
“制度”
依据运维体系和指标对运维人员的工作行为和取到的工作成绩进行评估,并运用评估结果为运维人员后续的工作和工作成绩进行正面的引导。重点对人员的指标完成度、创新性进行观察、挖掘引导潜在的运维潜力。在运维工作方面主要体现在运维保障上,确保服务的可用性、安全性和服务体系流程的标准化实施。通过周度、月度报表内维护量、故障量等数据进行工作量、工作效率进行评估。
“预警”
数据中心监控系统是现代信息化数据中心运行监控指挥控制中心平台,通过数据采集、数据处理、数据存储、数据展示、数据预警的方式进行对现场环境设备、网络、温湿度、电量、开关、设备运行状态、压力、能源信息进行集中化实施展示分析。根据容量计算算法对机柜配电容量、冷却容量、装机量进行预警、评估、扩容优化。通过平台数据接口二次开发将预警数据进行实施传输到运维人员工作通讯群等平台,实现了运行数据信息共享化、预警信息实时化。让沟通简单化、避免“信息孤岛”等低效率现象,降低沟通成本、提高沟通效率的成果。
“测试”
数据中心系统测试是运维工作中至关重要的环节。系统测试验证是测试数据中心系统设计、安装、功能、调试是否与设计意图相符合的一个重要过程,是设施获得良好功能和可靠性运行过程中的重要组成部分,一个好的测试验证不应仅满足“测试”相关的设备功能指标,更重要的是“验证”系统是否可以满足运行阶段的要求。
运维人员也应利用测试验证的过程熟悉在管理设备的状态和运行指标,验证设备操作标准流程的可操作性,提高实际过程中操作和应对突发事件的运维经验。
“容量管理”
随着数据中心各式各样的非标用户的进入,通过专业知识及运维管理经验对客户提出的非标改造需求、对方案进行容量分析计算、布局规划、改造实施、功能测试、验收交付的过程,针对容量管理计算使用流体动力学CFD技术进行热仿真分析、对机柜进行合理布局、气流组织改善、机柜装机量分析验证。
对机房客户改造项目通过使用BIM技术进行布局,BIM是在项目全生命周期内,使用富含信息的三维模型作业中心数据库,在项目相关干系人之间共同进行创建、检查和沟通协调项目信息的一个过程。
BIM过程管理是一次对于传统的项目工作流线性模式的大转型。BIM的项目生命全周期鼓励项目团队全体成员在全生命周期内进行合作,BIM还提供了信息丢失时候、无缝沟通的平台,使项目团队能够在早期进行重大决策,提高生产率、提高项目质量和进行持续性建设大道重要方向。
“运维管理”
通过不停的学习有效的管理思路,运维团队建立即时通讯沟通平台,在工作中实施,“走动式管理“、“PDCA”(即计划(plan)、执行(do)、检查(check)、调整(Action)),定期带着问题对现场进行巡视、发现问题纠正问题和了解现场存在的问题和不完善的细节等问题,定期与员工进行交流,鼓励大家对工作提出好的建议,在即时通讯平台进行及时沟通,最大程度做到专人负责责任制,跟进问题的整改检查和后续的持续完善的循环管理方法,减少“报喜不报忧”的不良现象。
运维计划
通过运维“三控、三管、一协调”措施对运维工作的运维成本、运维品质、运维效率进行目标控制,对运维安全、代维服务商、信息进行管理,对运维各技术小组运维工作的协作协调。加强对团队各小组人员安全培训、技术实施培训,技术文件的规范化、周期性的演练、团队建设。
资料免费送(点击链接下载)
史上最全,数据中心机房标准及规范汇总(下载)
数据中心运维管理 | 资料汇总(2017.7.2版本)
加入运维管理VIP群(点击链接查看)
《数据中心运维管理》VIP技术交流群会员招募说
加入学习群扫描以下二维码或者添加微信:wang2017bj