本文详细介绍数据中心建设及规划过程容易出现的9个误区,通过对误区逐一剖析,从而指导建设人员在数据中心中,有效规避问题,更合理的进行规划。
很多企业的的业务都运行在安全容量范围之外,而可以用于扩展的空间又非常有限或者根本不存在。据统计,数据中心的平均使用年限为 9 年。然而 Gartner 的数据显示任何运营超过7年的设施都趋于陈旧。
数据中心设施过时或者内部空间过于拥挤成为企业业务增长的“拦路虎”,这时建设新的数据中心有时就成为唯一的解决办法。当投放市场的速度成为成败关键的时候,没有对业务需求作出适当评估的企业会让数据中心建设走进死胡同,既无法保障可用性也无法满足未来业务的需求。
那么如何在新建和扩建数据中心之时避免犯错?设计和建设数据中心时,实施的方法是极为关键的。很多时候,企业只根据单位面积功率,单位建筑面积成本和 Tier 等级来规划数据中心,但这些指标可能会与其总体业务目标和需要承担的风险不一致。规划不善导致投资使用不良和运营成本的增加。
很多企业则只注重细枝末节,过分关注“速度和供给”,绿色环保,并行维护,电力使用效率(PUE)和绿色建筑 (LEED)认证。尽管所有这些指标在决策过正中都十分重要,但是过分注重细节会影响对全局的把握。有不少数据中心因为数据中心扩建而错过商业机会,所以应该用把握全局的方法实施扩建项目。
有大量的咨询公司及相关人员可以为规划提供帮助,但是评估这些咨询建议和设想的工作量将是非常巨大的。关键 IT 容量在 1-3 MW 的范围内数据中心很容易陷入这种麻烦。中型数据中心用户对关键性的要求也不比大型兆瓦级用户低。但是内部技术人员实施扩建的专业知识和经验可能比较有限,来自多方的信息量过大导致思维混乱和作出错误的决策。
误区之一:未将总拥有成本(TCO)纳入考量
仅仅关注投资成本是一个很容易落入的陷阱,新建或扩建所需的成本往往会令人产生错觉。尽管投资成本(CapEx)建模非常关键,但是如果未将数据中心基础设施的运维成本(OpEx)纳入计算,那么整体的业务规划流程的效果就会受到严重削弱。
对数据中心运营成本(OpEx)建模需要两个关键的子项:运行成本和维护成本。维护成本包括所有维护数据中心所有基础设施的成本。这包括 OEM 设备的维护合同,数据中心清洁支出,雇佣维修和升级承包商等费用。运行成本包括所有与日常运营和现场工作人员相关的成本。这包括雇员工资,人员专业技术培训和安全培训,数据中心运行文件历史记录,容量管理以及质量监督条例和程序等费用。如果无法计算出 3 - 7 年的运维支出预算,那么建立投资回报(ROI)模型来作出明智的决策是无法实现的。
当正在规划新建或扩建关键业务数据中心时,最佳的方案就是关注总拥有成本(TCO)的三个基本面:1)投资成本(CapEx), 2)运营成本(OpEx)和 3)能源成本。少计入任何一项,所创建的模型都无法将企业的各种风险和各种业务开销相匹配。在作出采购设备和建设的决策时,未权衡 TCO 的方法所产生的风险是非常巨大的。
误区之二:不准确的建设成本估算
另一个常见的错误是来自估算本身。董事会所批准的财务预算对与新建或者扩建数据中心来说太少,因而导致项目失败。决策的流程如下所示:
• 资金申请提出后获得暂时性通过。财务部门应该参与调查和获取信息,创建最接近实际的预算。
• 花费必要的时间推进以上决定预算的流程。
• 调查发现原来的预算提案数额太低。
• 项目被延迟;雇员受到影响;针对外部和内部客户的服务执行能力受到影响;预期受到影响。
• 这最终导致整个周期回到原点,这正是因为没有避免第一个误区,未将总拥有成本(TCO)纳入考量,没有建立一个全面的财务模型。
建设成本的问题本可以轻松避免,但是如果你无法规避误区三,那么第二个误区又是无可避免的。
误区之三:未制定适当的设计指标和性能参数
有两种“错招”可能将企业推进超支的死亡漩涡。第一点就是人人可能都喜欢可用性为Tier 3 或更高的设计方案,但是并不是每个人都确实需要这样的高可用性。第二点大多数的功率密度,kW/平方米和kW/机柜并不与实际的业务需求相匹配。
很多时候,“必须建成功率密度为 3 kW/平方米”这样的方案是很不合理的。千万不要过度规划建设,那样只会浪费资金。可用性越高的数据中心在运维和能源上的开销也会越高。如果走入这个误区将会让创建业务模型和投资回报(ROI)分析的基础偏离真实。首先要建立正确的设计指标和性能参数。然后围绕这些指标和参数构建投资成本和和运营成本。
误区之四:设施选址凌驾于设计指标之上
企业往往在确定设计指标和性能参数到位之前已经开始为设施的建设进行选址了。在缺少这些关键的信息的情况下勘察和评估场地并没有实际的意义。这种“本末倒置”的情况经常发生于 1-3 MW的数据中心用户群。兆瓦级的数据中心用户通常都是这个领域的专家,会将市电的可用性和成本、光纤网络接入、地理风险(例如地震,台风和洪水高发区)等纳入考量范围,而基本的用户则通常在其业务模式所显示的需求,在其业务覆盖的核心区域内建设或翻新场地来兴建数据中心。
过早选址或者仅基于地理位置选址带来的问题让数据中心的选址无法满足设计要求。举例来说,在办公室所在大楼内或者几个街区以外部署数据中心确实很方便,但是关键业务的数据中心有一系列的场地要求,往往需要花费巨额投资成本才能在多租户的商业大楼满足这些要求,而且未来扩建的空间也会受到限制。
误区之五:空间规划凌驾于设计指标之上
用于安防数据中心基础设施组件所用的物理空间和场地面积会是很巨大的。在最高可用性的系统中,高架地板面积即 IT 机房面积与支持设备所占的面积之间的比值可以高达 1:1。很多企业和机构只按 IT 设备所占的面积规划对空间和面积的要求,然而制冷和电气设备同样需要占用大量的空间。此外,很多企业没有注意到办公空间所要占用的面积。因此在进入规划面积的步骤之前,确定设计指标是极为重要的。如果没有设计指标,计算满足整体需求的总体空间和面积将无从谈起。
误区之六:设计缺乏灵活性,钻入死胡同
数据中心行业在推广模块化设计的重要性方面取得了长足的进步。但是使用模块化的方案并不能保证一定成功。模块化的方案所基于的理念是只在需要更多容量的时候及时地添加所需的基础设施设备,以此来保护投资的有效性。仍然有企业因为错误地估计未来的需求而导致他们自己钻入死胡同。任何事情都有可能发生变化。灵活的模块化审计方案是保证长远利益的关键。因为整合,因并购而导致业务成几何级数的增长或者未列入规划的高密度设备的应用,即使是最好的功率密度规划也会过时。在电气方面,保证设计方案应该预留在已部署模块在线添加 UPS 容量的能力。
将配电系统的输入和输出设计成能够满足未来变化的需要。为了满足未来容量增长的需要而过度规划配电系统所带来的成本并不会带来显著的 TCO 增加。机械制冷方面,大多数用户采用传统的房间级制冷、适当的高架地板深度以及冷热通道布局就能满足其制冷需求。但是一旦引入高密度设备,一切将发生改变。所以应该保证设计核心能够通过在线实施的方式添加行级或者机柜级制冷解决方案。
误区之七:曲解PUE的概念
电力使用效率(PUE)是一个能有效衡量效率并推动效率提升的工具。但是对能源效率的定义并不严谨,这最终导致对 PUE 的曲解。在几乎所有的新建和扩建数据中心中,获得较低的 PUE 值会产生额外的投资成本。很多时候企业源于自身良好的愿望设定一个 PUE 目标,却没有考虑所有的应该考虑的因素。实际上充分了解为了达到既定目标所要付出的投资成本和投资回报率(ROI)是非常必要的。我们需要弄清楚总拥有成本(TCO)和 PUE 目标之间的连带依存关系。
展示和了解 PUE,ROI 和 TCO 之间微妙的平衡关系的途径有很多。在这里列出了三种有代表性的需要引起警示的例子:
PUE 设计指标的设定应该以什么情况为参考?是“最佳日”的测量值,还是基于年平均值计算?
PUE 计算是应该基于数据中心满负载情况还是部分负载情况?所有设备的效率曲线都会因为负载率的不同而变化。在真实运行状态下,PUE 值也会因时间和日期不同而变化。
最后,关于水冷冷水机和风冷冷水机的争论也一直在继续。每种设计多会衍生出更过的“自然冷却”或“节能冷却模式”应用配置来降低 PUE。例如,在权衡决策 TCO 和 ROI的时候,我们应该考虑采用水冷冷机方案对补水和水处理之中运维方面的要求。由此可以认识到一个典型的 2 MW 数据中心如果使用冷却塔可能需要消耗 190 到 230 吨水。
有效利用PUE可以满足总体的业务目标。但是要加以小心,不要陷入因为曲解计算公式而错误计算投资成本和运营成本预算的困境。
误区之八:曲解 LEED认证
到目前为止,美国绿色建筑协会(USGBC)没有为数据中心确定专属的LEED认证指标。而是可以通过商业建筑标准通过认证。三个基本的认知错误:
• 对限定条件缺乏基本认知。可以通过阅读相关参考文献加以改善。
• 事后产生追加 LEED 认证的想法。获得 LEED 认证应该是在概念设计阶段开始,那么在项目揭示的时候被授予正式的认证。在规划阶段的初期就应该有 LEED 认证的工程师或者能够提供此项服务的咨询公司参与进来。
• 获得认证会产生额外的成本。未将这些成本计入会对总拥有成本(TCO)和 商业决策产生影响。
误区之九:设计方案过度繁复
如前所述,越简单的设计越好。即使给定可用性要求,仍然有十几种方法可以设计出有效的系统。常见的情况是,是冗余加剧了复杂性的形成。即使是模块化的系统,加入不同的方案后,系统很快变得繁复起来。当在内部讨论方案,或者从厂商寻求咨询的时候首要的目标就是如何保持设计方案简约。这样做的原因是:
• 繁复就意味着更多的设备和组件,而更多的组件就意味着更多的故障点。
• 人为失误。数据大小略有不同,但是其趋势的指向是一致的。大部分数据中心宕机是由人为失误导致的。复杂系统增加了运营的风险。
• 成本。简单的系统意味着更少的建设成本。
• 运营和维护成本。繁复就意味着更多的设备和组件,其所需的运营和维护成本将呈几何级数上升。
• 设计应以实际使用为基准。许多设计方案在图纸上看很优秀。从图纸上判断和选择配置并评估可用性风险看似容易。但是如果设计方案没有考虑“可维护性”,在维修时,系统的可用性将承受风险和人员安全也受到威胁。
总结:尽管有很多以往数据中心建设和扩建的失败案例,但这并不意味着下一个数据中心项目就也会如此。通过避免进入本文列出的九大误区,你将能够在一条通往成功的道路上迈步前行。总结来看:
1. 使用基于总拥有成本(TCO)的方案: 整体业务支出分析与风险分析关联; 将投资成本(CapEx)、运营成本(OpEx)和能源成本纳入成本模型。
2. 确定设计指标和性能参数:使设计指标基于风险分析和业务目标;按设计指标确定设计方案,包括关键性等级、选址、空间布局规划。
3. 保持设计方案简约和灵活性:采用可以满足可用性要求的设计方案,但也要保证较低的建设和运营成本,简约的设计是关键;通过具有灵活性的设计方案满足计划之外的扩建需求
4. 如果 PUE 和 LEED 认证是指标的一部分,应充分了解常见的误区和实施的成本。通过基于总拥有成本(TCO)的规划方法,就可以使新建的数据中心设施满足企业现在和未来对性能的要求和业务的需求。
来源:全栈云技术架构
资料免费送(点击链接下载)
史上最全,数据中心机房标准及规范汇总(下载)数据中心运维管理 | 资料汇总(2017.7.2版本)
加入运维管理VIP群(点击链接查看)
《数据中心运维管理》VIP技术交流群会员招募说明
数据中心运维管理