宣传6个9的可靠性就真的可靠吗



ICT架构师技术交流(微信号ICT_Architect)

分析和交流ICT行业最前沿技术,分享云计算、存储、服务器、数据中心、网络、软件定义和虚拟化等相关知识,旨在知识交流、开放共享和共同进步。

宣传6个9的可靠性就真的可靠吗_第1张图片

可靠性是人们长期以来讨论的热点话题,随着分布式系统的发展,可靠性的问题早已是每个存储、分布式系统、融合系统和服务器等厂商的一门必修课程。

由于数据是客户的核心资产,所以跟数据打交道的这些设备是否可靠就显得格外重要,服务器的RAS特性(Reliability, Availability和Serviceability,Intel又引入了Manageability可管理性,对部件进行监控、管理和错误预测)是直接决定服务器档位和优劣的重要指标,无论是RAS1.0,还是目前大家炒的火热的RAS2.0。存储跟数据的紧密关系决定了它与生俱来就应该是可靠的,那么存储系统的可靠性应该如何评估呢,目前各个厂商都吵的5个9、6个9甚至更高的可靠性标准,这些数据如何得来,通过这些数据就能说明系统真正可靠吗。


关于存储的可靠性的评估有不同的行业标准和理论体系,每个厂商也有自己不同于别人的理解。如美国电子设备可靠性标准MIL-HDBK-217、英国电信可靠性标准HRD5、BELLCORE TR-332等。目前采用比较多的可靠性模型是BELLCORE TR-332《Reliability Prediction Procedure for Electronic Equipment》商业产品通用的国际标准。这套标准也提供了几种单元可靠性预测方法,其中比较常用的一种方法叫计数法,该方法计算的是在工作温度40℃,50%的电应力下的失效率。


针对冗余单元组成的系统,一般采用Markov状态图的方法进行可靠性指标建模。针对串联单元组成的系统,直接将各单元的可用度相乘计算系统的可用度。根据系统模块、器件的MTBF(平均故障间隔时间,一般适用于可修系统)和MTTR(平均修复时间),再结合级联器件单元和串联器件单元求和算出系统可用性,系统可用性Availability = MTBF/(MTBF+MTTR)。


存储的可靠性可以基于不同标准和理论体系建模,而且预测方法也存在差异。首先采用不同模型和方法就会影响计算结果;再者厂商的宣传大多还是却反官方材料证明,基本上都是拿最好的一面示人,但实际上客户实际环境和业务情况是非常复杂的;最重要的一点是这些都是理论值,理论和实践的差距往往较大,宣传归宣传,站在客户角度,客户是不是更应该看重厂商设备在现网的运行时间,故障率、套数和行业分布等。


这些纸面上宣传的东西对部分客户来讲,可能还是比较有效的。但站在我个人角度来讲,随着产品硬件技术的发展和工艺提高,硬件芯片、模块本身的可靠性无论来自哪个硬件厂商,其故障率和可靠性基本都是保持在一个量级或水平线的,而且目前大多数厂商硬件也就来自那么几家芯片公司。设备厂商拿着芯片厂商的硬件研发自己的产品,除了在产品架构、管理、易用性和服务性上做些优化和差异外,其他的可靠性还是依托于底层芯片和架构来保证,所以单纯地从产品谈可靠性意义不太大,还应该更多的从产品特性功能、软件增强和解决方案级别来讨论。


服务器产品在设计时,RAS设计主要来源于CPU、芯片和服务器生产厂商,CPU提供的RAS 特性功能在BIOS初始化阶段,就会使能各项RAS特性,但CUP级别的RAS特性主要是服务于上层RAS或扩展能力,服务器系统级别的RAS特性需要依靠厂商设计,如分区、内存镜像、CPU和内存热维护等。

宣传6个9的可靠性就真的可靠吗_第2张图片

衡量一个服务器系统的主要标准就是RAS(可靠性是重要指标之一),服务器系统RAS涉及的内容包含每个部件,最主要的部件是CPU、内存、管理时钟模块等。当然,各个模块的RAS包含很多方面;如内存的RAS就涉及了Cache保护、故障巡检、错误纠正、故障内存隔离和定位等方面。

宣传6个9的可靠性就真的可靠吗_第3张图片

为了提升服务器系统级的RAS能力和竞争力,服务器厂商需要在Firmware级别进行差异性设计,最常见的例如,主动预警内存、CPU等风险部件,不依赖于具体OS全方位自动故障数据收集,带外完成故障收集、分析、定位、预警及处理任务分发等待。


分布式系统(也包含分布式存储系统)也可以把RAS、MTBF、MTTR等作为可靠性衡量指标,但是比较被认可的专业指标是CAP指标,可用性作为其中重要因素之一。CAP理论阐述了在分布式系统的设计中,没有一种设计可以同时满足一致性,可用性和分区容错性。既然不能同时满足,那如果宣传5个9、6个9的可用性就难以服众,即使在分布式系统设计中,大多数厂商都是牺牲一致性来成全可用性和分区容错性,但一致性也必须是分布式系统设计考虑的重点。


针对分布式系统设计中,BASE理论作为CAP理论的折中或延伸,在分布式系统中被大量使用。分布式系统的可靠性竞争力的建设,似乎更多要依托上层软件能力体现(主要原因可能也是基于便宜的X86通用服务器,硬件最求的就是便宜),如数据多副本、EC纠删码(跨节点存放数据,多节点故障容忍等),数据Scrub校验、ECC,存储池故障域隔离、数据快速修复等等。方案层面的可靠性也尤为重要,数据异地复制容灾,数据Multiple Available Zone、Region等。


存储系统,尤其是企业级存储系统,存放着客户核心数据资产,光凭借基于可靠性模型评估的5个9、6个9的器件模块理论数据,基本是无法胜任业务真实所需可靠性任务的。也正因如此,存储产品的可靠性往往被厂商和客户更为关注,所以存储方案的端到端方案的可靠性也就是核心竞争力。


硬盘是数据存储基本单元,硫化腐蚀、高压、高温、灰尘、振动和磁头退化都会导致磁盘故障,除了对单个进行磁盘防硫化和防灰尘处理外,更多的如抗高温、振动、坏块修复、故障预测等处理都需要存储系统在设计时考虑。卷镜像、快照、多路径、性能提升(包括硬件加速)和数据保护功能也需要在系统级别进行设计和严格测试,更好的来保证存储系统可靠、稳定,保证存储系统内数据安全。


RAID是数据冗余可靠的最基本技术,目前RAID技术种类繁多,除了如CRAID、FastRAID、RAID2.0、VRAID等基于Block的RAID技术外,还有如RAID DP、RAID5E、RAID MP和RAID ADG等复合性RIAD优化技术,很多RAID或EC技术支持跨机柜分布数据,提升系统重构速度和机柜之间可靠性。


在数据中心内,存储系统通过提供数据端到端一致性来保证数据一致可靠,如基于SCSI的DIX+T10 PI端到端一致性技术,在存储系统支持标准的T10 PI的情况下,跟特定数据库(Oracle 11g)、操作系统(Oracle Linux 5 or 6)和HBA(Emulex、Qlogic特定型号)等组件联合保证数据一致性。

宣传6个9的可靠性就真的可靠吗_第4张图片

在存储系统中,静默数据数据破坏无法实时检测出来,导致被破坏的数据恢复难度很大,甚至不可恢复,所以该方案提供了数据端到端的一致性功能保证数据可靠性。


异地、跨数据中心间的可靠性能力,让客户应用和数据具备跨城域或多数据中心灾难容忍能力,这才是客户所需要的实实在在的能力。支持这种能力的技术通常是数据复制、双活,多数据中心(如3DC)等方案。但每种方案对应的场景和能满足的需求也不一样,这主要取决于数据对RTO、RPO和距离、网络、时延等的要求。所以我个人认为,与其单纯的宣传单产品或产品硬件本身几个9的可靠性数字,还不如构建产品软件和方案实力,以整体方案的现网运行数据来证明产品的可靠性。

文章已经同步至微信“ICT架构师技术交流”公众号,关注公众号获取更多精彩技术内容。


温馨提示:

请搜索“ICT_Architect”“扫一扫”下面二维码关注公众号,获取更多精彩内容。


你可能感兴趣的:(存储,服务器)