HPC正在改变,中科曙光突破的不止是技术创新

今年夏季的ISC 2019在德国法兰克福召开,展现了最新的业内情况。


除了看TOP 500的排名之外,业内更关心性能指标、产品架构和最新的应用情况。这不,2009年至2018年累计获得9届中国HPC TOP100的榜首中科曙光新一代硅立方高性能计算机亮相ISC 2019之后,引来无数同行参观,从安装开始就有专家10多次去观看。这款HPC有何魅力?


其实,除了这款产品的性能、架构、配置等代表了中科曙光HPC最新技术的研究之外,还代表了该公司对HPC产业的思考:行稳致远,才能为产业、生态和用户带来更多价值。


本文,我们通过中科曙光对HPC的思考,一起看当前HPC产业正在发生的变化。


TOP 500 谁最强?


先从今年的TOP 500排名说起。


按照国家份额来划分:部署在中国的HPC,占44%,一共有220套;美国占23%,一共有115套;日本占6%,一共有30套;法国占4%,一共有20套。

HPC正在改变,中科曙光突破的不止是技术创新_第1张图片

按照公司排名来算,在中国的占比中,中科曙光一共为63套,占比13%。而在美国,数量较多的是HPE 40套,占比8%;Cray 42 套,占比9%,Bull 21 套,占比4%。其他占比较多的有富士通、戴尔、IBM等厂商。


按照技术的维度看,在TOP 50中,采用NVIDIA系列的产品有12套、Xeon Phi系列的有8套,Power BQC的有3套,ShenWei的有一套。


今年榜首为美国的Summit,Flops 为148.6P;去年为143.5P,略有提升;第二名为Sierra,Flops保持不变,为94.6P。中国的太湖之光和天河二号继续为第三、第四名。


HPC正在改变,中科曙光突破的不止是技术创新_第2张图片

从排名看今年变化


在TOP 500的官方网站上,有各种维度的数据,有兴趣的可以仔细看一下,需要说明的是,官方数据也在不断更新中,细节上可能有所出入。


从今年这个排名上也可以看出来一些新的变化。


1.数量看,中国市场份额占有绝对优势,其次是美国、日本和法国、英国、德国。但是从性能优势来看,中国尚有进步空间。


2.厂商角度看,中国厂商也占据绝对优势,排名占据前三,占比也比去年有提升。


3.从核心技术来看,英特尔和NVIDIA在芯片上又迈进一步,英特尔的芯片仍旧占绝对主导地位,占比数值为95.6%。


4.以太网的技术仍旧为主导,其次是InfiniBand。当然在速度最快的系统中,40%的系统采用自定义连接。


5.能源效果并没有太大变化,测试基准也没有太大变化。


HPC正在改变,中科曙光突破的不止是技术创新_第3张图片


不过,官方也在TOP 500发布时说明,从数量来说,中国占据绝对优势;但是从质量来说,也就是总体的PFlops来说,中国并非榜首。大白话翻译一下:部分高性能机器是用数量堆起来的,性能并不突出,偏离“高性能计算”原本的含义,这也是值得警惕的事情。


同时,官方在公布Top 500榜单时,还提出两个问题。1.随着摩尔定律,HPC的未来是何处?这其实引申的问题是,每年HPC除了拼性能之外,还有什么可突破的地方?不能总是用性能来引领产业的趋势。2.有没有一个新的测试基准?这是因为,从去年开始,FaceBook这类厂商搭建的系统(自建)进入榜单。如果保持原有的测试基准不变,那么对架构的要求是否有所改变,这意味新的游戏规则开始了。


总之这些都是新形势下的挑战和变化,对于一个产业、一个公司和一个产品的走向而言,都具有思考意义,否则,TOP 500就会成为为了榜单而冲榜,失去了原有交流、学术和技术前沿的含义。


全新一代产品发布


每年发布TOP 500之后,业内也有这样或者那样的讨论,总体看,都是如何进一步推动产业的发展,而不是仅仅落在排名方面。


这也是中科曙光HPC一直在思考的事情。


从中科曙光的HPC发展路径来看,3次进入全球TOP 500前10,创造了众多第一;产品从曙光一号到当前的曙光6000、最新发布的新一代硅立方高性能计算机等,一直在这条道路上不断迭代,到目前为止已经交付了1万多套HPC,是亚洲名副其实的最大HPC供应商。


HPC正在改变,中科曙光突破的不止是技术创新_第4张图片


之所以有这样的成就,这和中科曙光一直保持技术创新分不开。本次发布的产品也是技术创新的代表:采用异构架构,可以对CPU、GPU、AI等芯片采用“自由组合”的方式,提高了系统的能效比;采用高速网络技术,提升了IO性能和可扩展性;采用EB级高性能存储,率先进入EB市场;采用全浸没式相变液冷技术,突破了密集型计算的冷却瓶颈,PUE降低至1.04;采用智能的先进计算平台,兼容不同应用框架的弹性资源调度,从运维到运营的体系化覆盖。


可以说,这个产品从架构、网络、存储、基础架构、平台等方方面面做出了巨大升级,这也是此次中科曙光展示的重点,要向全行业展现技术领先性,保持中国力量,借此机会展开更多、更好的合作,共同做大生态圈。


不断用技术引领业内


在展台这两天,除了听会之外,密集的与产业各方面交流,也倾听了中科曙光高性能计算产品事业部首席科学家吉青博士等人对曙光自身发展的观点,结合产业的趋势,有如下想法。


首先,TOP 500在求变。经过10多年的发展之后,TOP 500的体系相对成熟。随着新技术的不断发展和新应用的不断增多,如何让榜单体系更合理,更接地气,组委会也在考虑。未来不排除采用多个细分基准的测试,这样就能囊括的范围更广、参评的企业更多,而不是仅仅强调分数和排名,那样就会形成现在“数量和质量”之间的矛盾,放在中国尤为如此。


其次,不断追求极致的技术。让“高性能”本身回归技术范畴,在科研、生物、化学、气象等领域深入应用,不断与最新的技术结合,不断突破现有的技术边界。比如此次中科曙光发布的产品在架构、存储、冷却技术上均有大的突破,这意味着中科曙光凭借着20多年的积累,稳步的走在了全行业的前列。


HPC正在改变,中科曙光突破的不止是技术创新_第5张图片


尽管从数量来说,中科曙光并不是最多的,但能带动全行业的趋势发展和变革,这是最值得学习的地方。当然,如果中科曙光没有“行稳致远”的精神和一脑门“科研精神”,就不可能实现这个目标,从Supercomputer跨越到Supercomputing(从超级计算机到超级计算技术)。背后始终是技术驱动、行业驱动和用户驱动。


当然,有了技术不是最好的。最好的是倾听用户的声音,在应用、提高HPC的效率方面做出变革。


如何让HPC发挥最大价值?


让HPC技术与应用结合,这也是近年来的一个趋势。这意味着从用户的需求开始,HPC厂商就应该进入服务过程中,从咨询、设计、产品实现到运维等全流程全部纳入到服务范围之内。尽管这些年中国HPC已经在应用方面有了较大的改变,但是还不够。这包括:如何让硬件发挥最大优势、如何让应用平台与软件调优想适配,如何让用户有自主使用资源的权利等,这些都值得探讨。


中科曙光的做法是,除了倾听用户的声音之外,还搭建了EasyOP在线运维管理平台和先进计算服务平台,囊括了硬件调优服务、知识库等服务,通过共享和开放的形式,逐步探索新的服务模式,满足不同类型的用户需求。也就是说,用户不管是购买硬件(不管是否包括运维服务)还是购买服务(租用硬件),中科曙光的超算服务平台都可以满足。


HPC正在改变,中科曙光突破的不止是技术创新_第6张图片


除此之外,中科曙光还以“资源池”的方式构建HPC的基础设施,欢迎不同地区的资源加盟,纳入到EasyOP平台中,逐步做大HPC的生态圈。当前,已经在中国安徽、河北以及欧洲建立三个分中心,活跃集群接近200套。这是在商业模式、资源利用、用户服务方面均有所创新。


实际,这种模式再延伸就会成为业内技术——产品——解决方案——平台——生态的发展路线,成为国内首屈一指的HPC生态圈,那样,用户可以将自己的应用封装,供其他类似场景的用户调用,消灭“发明轮子”的过程,极大刺激和繁荣同行之间的交流,促进HPC的高效利用。


正如中科曙光高级副总裁任京暘一再强调的,中科曙光会加强对核心技术长期、稳定的研发投入,联合上下游合作伙伴共建全球范围内完善的先进计算生态,助力中国超算事业服务于世界。


这可能就是中科曙光带给业内的,不仅仅是技术创新,而是用更多的方法论和实践促进产业更好的交流合作,促进HPC高效使用,让HPC成为全社会计算的基石,让更多人享受到技术的便捷和价值,从而带动其他产业的发展。

你可能感兴趣的:(HPC正在改变,中科曙光突破的不止是技术创新)