老树发新枝——待裁撤数据中心管理思考

时光荏苒,技术腾飞。曾经的巨人在老去,回首他们昨日的光辉,依然洋溢着骄傲。站在时光的十字路口,是决然的挥手别离,还是期盼老树发新枝?—这是我们对待裁撤数据中心管理的思考。

一、待裁撤数据中心面临的挑战和机遇数据中心的运营寿命通常为8~10年,随着时间的推移,数据中心基础设施设备老化加剧、设备稳定性下降、故障率上升、设备运营效率下降、维保成本显著增加;IDC网络架构难以满足当前业务发展的需求;IT设备过保、设备故障率显著提升、续保成本增加。

图1 待裁撤IDC的挑战

虽然待裁撤IDC面临诸多问题和挑战,但是他们也有很多值得关注的优势。近10年的数据中心运营,已经建成了较为成熟完善的运营体系;运营团队在技术积累、梯队人员培养方面相对稳定;更重要的是我们与IDC运营商之间建立的长达近10年的钢铁般的互信情谊。

尤其对于大型数据中心园区,对待裁撤数据中心进行改造还有以下优势:有利于集中化管理,避免数据中心碎片化;大型数据中心园区市政基础设施配套建设有较好的资源投入,特别是外市电、市政供水的可靠性和可用性高;数据中心园区成熟的周边配套,对运营人员的稳定性也有帮助;大型数据中心改造的成本低、建设周期短、相比与重新选址可以大大缩短整个交付周期。

图2 待裁撤IDC的优势

因此,除了综合考虑待裁撤数据中心基础设施等硬件条件外,运营体系等软件优势也是数据中心经理对待裁撤数据中心评估管理的重要内容。

二、老树发新枝,待裁撤数据中心的改造评估面对业务不断发展的需求,对于存量老数据中心的挑战日益严峻。待裁撤数据中心改造或许将为我们带来新的机遇。

基础设施方面各种设备的使用年限并不一样,例如高、低压配电柜,变压器设计使用年限通常为20年;而UPS系统设计使用年限通常为8~10年(部分部件可能提前更换,例如电池、电容器一般每五年更换一次)。那么待裁撤数据中心改造评估需要如何着手呢?

1. 基础设施改造评估:

(1) 配电系统:市电容量是需要重点关注的事项,随着IDC的发展,单机柜功耗不断提升,尤其MDC(微模块数据中心)可以实现单机柜6.5~10kW.在单位空间内的电力容量需求将显著提升。

高低压配电柜及变压器通常使用年限为20年,对于投产8~10年的IDC,这部分可以考虑继续使用,但是需要进行全方位的检查,并对隐患设备进行更换。

UPS系统,投产8~10年的数据中心主要采用UPS系统。根据UPS的生命周期,UPS主体已经达到报废年限,而UPS电池和电容(通常每五年更换一次)等部件已经经历了2次更替,也不建议保留。同时,我们可以考虑引入能效更高的HVDC系统(双路HVDC或者HVDC+市电直供)。

(2) 空调系统:对于传统风冷式空调系统,机房整体PUE相对较高,在高温极端气候下,制冷效果不佳。在空间满足的情况下,建议更新为水冷机组,或者配置为双冷源系统。这将显著提升系统的运营效率,并增加系统的健壮性和可靠性。

对于水冷机组系统,在良好的维保情况下,冷机、水泵的核心设备通常仍可以正常使用,但是我们需要充分评估其运行效率,并对隐患部件进行更换。管道系统是需要重点关注的环节,管道锈蚀以及阀门锈蚀将严重威胁系统运行。

(3) 机柜模式:8~10年的传统数据中心,可能采用当时较为先进的机柜下送风、冷热通道隔离技术。其制冷效率有较大的提升空间。

当机房空间以及承重条件较好时,我们建议考虑使用MDC技术。MDC技术可以实现制冷效率的显著提升,同时实现机架快速分批交付,是应对业务快速发展需求的不二选择。

当机房层高、承重受限时,冷热通道隔离技术仍然可以发挥重要的作用。

(4) 其他系统:对于消防系统,相对于传统运营商数据中心广泛采用的气体消防系统,腾讯数据中心致力于推动预作用高压细水雾消防系统(IT机房内)的应用。当面临火灾等风险的时候,腾讯数据中心始终将运维人员的生命安全放在第一位。

门禁和监控系统,需要考虑原有的门禁和监控系统是否可以覆盖改造后的新增扩容需求,例如动环监控、群控、CCTV、MDC监控数据对接等。

2. 网络架构改造评估:

(1) 网络架构:为了满足业务的发展需求,网络架构也是日新月异。以腾讯数据中心为例,传统数据中心主要采用千兆网络架构,而当前我们主要建设的是万兆网络架构,两种架构下的设备无法完全匹配(通常万兆服务器可以兼容千兆网络架构,而千兆服务器不能兼容万兆网络架构)。因此,我们需要根据当前的业务需求,选择适宜的网络架构。

(2) 机位上架标准:机位上架标准是结合网络架构、设备功耗、机架空间及电力容量等多方面制定的规范。传统机架主要为16A或者20A机架(单机柜4.4kW以下),而腾讯IDC当前主要采用30A机架,因而上架标准也需要更新。

3. 服务器评估:服务器技术的更新周期很快,通常服务器的生命周期为3-5年,对于在使用年限且符合新网络架构的服务器可以继续搬迁使用,对于过期过保的设备可以更新淘汰。另外服务器对于交流、直流配电系统以及制冷系统的兼容性相对较好,通常不是决定数据中心去留改造的瓶颈。

4. 相关业务评估:对于多点分布、业务健壮性好、抗风险能力好、能够快速灵活调度的业务,且对改造时间要求紧迫,对基础设施侧健壮性要求不苛刻,同时也追求运营成本的业务。可以考虑,选择快速、低改造成本,适度小改为“廉价”机房供此类业务使用。(此处“廉价”已包括对改造后数据中心的低维保投入)

对于业务健壮性较弱,且对基础设施侧健壮性依赖大的业务,可以考虑高改造投入,适度改建为高可靠性的数据中心,满足业务需求。

当然,不管哪一类业务,我们都还需要考综合考虑业务的迁移成本。

「结束语」

数据中心裁撤是数据中心生命周期管理的重要组成部分,随着时间的推移,更多的传统数据中心将迎来裁撤和退役。如何最大程度的利用现有的基础设施条件,同时满足业务发展需求将是考验数据中心经理(简称“数经”)管理能力的重要课题。

今天,我们提出这个话题,是因为我们自己在海量运营过程中也刚刚碰到这个难题,怎么做才是最佳,我们目前也没有答案,希望接下来能够和大家多多讨论。当然如果在实践的过程中我们摸索出一点点经验的话,也会及时对外分享。


本文转自d1net(转载)

你可能感兴趣的:(运维)