精益求精的设计理念最早起源于建筑学,它要求设计师在建筑结构荷载上充分考虑极限设计下的结构功能,强调建筑结构需满足安全性、可靠性、耐久性。如今,这种设计理念也融汇到各行各业,其中科技行业更是典型代表,服务器产品的设计更不例外。
对于服务器来说,可以从三个方面来看:首先,在产品设计时,结合不同的应用场景设计不同形态的产品来满足业务需求;其次,在部件选型上,要考虑如何发挥性能和品质保障;最后,对产品结构、部件进行优化,在满足期望性能的前提下,加强产品的易用性和可靠性。
浪潮信息今年发布的全新G7算力平台,正是秉承了精益求精的设计理念,采用最先进的计算、存储和互联技术,实现全场景覆盖,提供了从器件、整机到数据中心的全尺度智能化管理。
更佳性能 源自以系统为核心
建筑大师张开济曾说过:“建筑设计不能只顾自己的一个设计,而要和整个城市的风格相和谐”。以整体为核心的设计,才是筑基经典的开始…而服务器作为数据中心中承载着数据处理的算力平台,需要以全局视角来进行产品设计才是发挥出极限性能,包括解决架构设计、核心部件、高速互联、散热设计等一系列问题。
浪潮信息G7算力平台坚持以系统为核心,从电路级、部件级、固件级、系统级进行了大量的创新工作。以一台通用服务器的研发为例,整个系统需要经过30多个开发流程,使用150多种加工制造工艺,对280多个关键过程控制点的质量进行严格把控,并且还要实现与软件和应用的优化和适配等问题。
系统设计的开端是保障供电,G7算力平台拥有极限供电能力,采用第三代半导体碳化硅及氮化镓开关元件,电源功率密度提升至100W/in³,在占比最高的20%~50%电源负载时,自动识别调适转化率可达94%,提升4%~6%的转换效率。
拥有强大动源后,影响产品性能的关键因素是整机散热能力,G7算力平台提供多种散热方案,传统风冷模式从风扇结构、热流导风技术、智能风扇调控技术、EVAC散热技术、整机架构等进行优化,通过复合型散热调控,破解风源、风流场和高功耗部件难题,整机散热效率提升24%以上,单台设备一年可以节电近千度。面对PUE更严苛的需求,G7算力平台支持冷板式液冷、浸没式液冷等创新技术,其中冷板式液冷覆盖包括CPU、内存等高功耗部件,液冷覆盖部件的功耗占比70%以上,可帮助数据中心的PUE下降到1.1以下。
在内存优化方面,G7算力平台的存储模块E3.S可通过CXL实现远端内存扩展,延时性能基本与跨处理器内存访问延时相当,满足云计算虚拟化场景内存扩展不足问题。在网络互联方面,G7算力平台支持Multi-Host网卡,不仅可以使多个CPU同时连接单张网卡,实现多CPU网络IO Balance,减少跨CPU访问延迟,同时支持多系统之间的互联,多个计算、存储节点可以通过单一的网卡和外界互连,数据中心性能可提升150%以上。
正是由于有了以上设计,G7服务器在最新的评测中摘下SPEC CPU、SPEC jbb双路、四路性能冠军,实现了不同处理器平台、不同类型产品性能的全面升级,成为多元计算力平台的性能标杆。
场景化设计 打造最强产品组合
建筑的本质是服务于功能,歌剧院和写字楼的应用场景不同,呈现的建筑形态也截然不同,数据中心的建设也是一样,不同用户数据中心的建设面对着不同的挑战,比如机房空间不足、数据量爆炸式增长、运维人员资源不足、扩容需求周期紧张等。面对不同的业务场景需求,G7算力平台从计算密度、存储密度、IO扩展等多个方面进行优化。
例如,大数据技术的发展让数据中心用户开始面对分布式缓存、热存储等差异化的存储场景,对服务器计算性能、存储密度以及IO有不同需求。
为此,浪潮信息推出了针对存储优化型产品——NF5266G7,可应对计算性能、存储密度不断提升,IO扩展等多方面的压力,在2U空间能支持2颗最新处理器,同时提供最大600TB和上百种存储配置方案,让大数据应用在CPU投资减少50%;而面对计算密集型场景, G7算力平台可提供2U空间4节点产品,单机柜算力可提升4.2倍;而面对I/O扩展需求,G7算力平台全系支持双OCP及Multi-host网卡扩展,支持在线热维护等,性能提升10%以上。
G7算力平台支持8种主流通用处理器芯片,51种加速计算芯片,打造包括通用计算、AI计算、高端计算、应用优化、整机柜、一体机等产品,并搭载浪潮信息KeyarchOS操作系统,实现了服务器的软硬件协同系统优化。
精益求精 稳定输出澎湃算力
建筑设计最基本的要求是安全,结构安全性是防止破坏倒塌的能力,是结构工程最重要的质量指标,体现在材料、结构、消防、电气等建筑的各方面。浪潮信息对于产品的打造也一直如此,坚持将精益求精的设计理念融汇到每个产品,打造高RAS特性。
G7算力平台采用 “整机3层保护模式”,从物理的硬件冗余、系统的降额设计及软件的系统保护设计上层层提升产品可靠性。关键部件的冗余设计,如CPU供电采用多路供电方式,风扇、PSU等部件的N+1冗余设计,BIOS、BMC的双ROM设计等,在一个器部件故障后,冗余的器部件可以保障系统作业不会中断。
系统的降额设计,当机柜供电能力受限或者单个PSU供电不足时,浪潮信息独有的动态Power Capping技术提供过载实时响应措施确保系统供电安全,确保业务连续性,实现主板MTBF无故障工作时间超过24W小时。这背后是主板上每一颗电容的严苛选择,通过千万次的测试和仿真实验,优化元器件布局和散热策略,减少元器件压力及减缓老化,从而延长产品寿命,避免业务场景不同或机房差异带来的系统工作异常问题;而软件的系统保护是可靠算力的再一次进化,为了支持更多部件的热插拔保护,G7算力平台支持PSU、风扇、硬盘、OCP网卡等多个部件的Efuse保护机制,当出现异常时可实现毫秒级直接熔断,为系统提供强力保护。
除了产品级的严苛设计,浪潮信息自有的王牌实验室——“澎湃实验室”对每款产品都要进行2000多项测试,包括30余项极限测试,开发的工艺文件、生产品控标准经由信息系统分发至世界各地工厂,通过智能制造系统统一执行,从而实现全球高品质交付。