科百华公司作为国内顶尖的高性能计算系统供应商,多年来致力于为我国航空航天界提供优秀的高性能计算解决方案,推动国内空气动力学数值模拟研究的发展。
1.概述
传统的飞行器气动布局设计主要依赖理论研究估算、设计师的经验以及大量的风洞试验结果,风洞试验是主要设计工具。计算机技术的迅猛发展推动了航空空气动力学的革命。目前正在大力发展的计算流体力学将以突破对黏流流场物理现象的模拟能力为重点,尤其是精确预测流动分离点和转捩过程以及湍流流动。
1.1.国外发展概况
美国
美国在空气动力学研究与发展领域一直处于世界领先地位,在探索新概念飞行器、航空新技术、新研究和试验方法上也具有明显优势。美国对空气动力学技术的投资堪称世界第一,为促进气动技术的发展,先后建造了一大批用于各类飞行器研制的气动力地面试验设施,现有高、低速搭配、尺寸配套的科研生产型风洞70多座。
长期以来,美国充分利用其处于世界先进水平的计算机软硬件技术优势,大力开展计算流体力学(CFD)技术研究,投资建立数值模拟中心,推广CFD技术的工程应用。特别是航空、航天飞行器的气动设计中,采用先进的CFD技术使设计周期和成本大幅度降低,设计质量迅速提高,飞机气动性能不断改进。
欧洲
总体上讲,欧洲,主要是德国、法国和英国在空气动力学发展研究方面稍逊于美国。由于经济原因,在高超声速飞行器研究上,欧洲明显落后于美国,但欧洲的气动试验设施在某些方面比美国先进,比如欧洲的跨声速风洞,其试验能力和试验效率明显高于美国现有的风洞。
英国航空航天界人士认为,目前空气动力学已达到非常先进的阶段,但还不成熟,业界未来的目标应该在于开发未来先进的、快速的和适用的方法,用于设计可显著改善气动效率和降低成本的机翼,为应用行业带来显著的效益。CFD方法的研究进展在其中应保持优先性,其研究的方向仍然是继续提高计算精度和应用能力,特别是在粘黏性和非定常流的模拟计算上。
俄罗斯
作为世界航空航天大国,俄罗斯在空气动力学的理论研究和试验能力方面一直与美国并驾齐驱,特别是在基础理论研究方面具有一定优势,但在计算流体力学方面进展落后于美国。从美国与俄罗斯以及西欧与俄罗斯在气动技术研究发展方面的合作项目上可看出,俄罗斯主要提供新的设计思想和理论方法,而相应的试验和计算软件开发一般由美国或西欧承担。
中国
新中国自建立以来,一直把发展航天航空技术放在作为国家战略高度,在老一辈空气动力学专家的带领下,中国在过去几十年的时间里,在空气动力学方面的研究已经取得了重大的研究成果,并直接使我国跻身航天航空大国之列。目前中国航天航空研发机构主要包括三个部分:
航天科技集团和航天科工集团下属各研究院,如航天一院、二院、三院、十一院等,其研究涉及飞行器设计、洲际导弹、载人航天等多个方面,是我国航天航空研究的主力军。
其次就是国防科工委下属的各个重点高等院校,包括北京航空航天大学、西北工业大学、哈尔滨工业大学等,此外,清华大学、上海交通大学等国内知名高校也纷纷开设了航天航空气动力学专业。
我国军用、民用飞机设计的主力军无疑是国内几大飞机设计院:西飞、成飞、沈飞等,并且在我国已经形成了陕西阎良、四川成都、辽宁沈阳、等几个航空研发基地,近年来已经开发出飞豹、歼10、空中加油机、支线飞机等高新技术产品,并在积极努力开发中国自主知识产权的大飞机设计。
1.2.CFD方法发展与挑战
随着CFD技术的迅猛发展及其在军、民飞行器气动力设计中的广泛应用,预测给定外形绕流的无粘CFD流场技术已非常成熟并成功应用于先进战斗机的全机模拟中。一个典型的例子是,美国的F-22飞机在试飞时出现垂尾抖振现象,风洞试验研究未能准确确定其产生的根源,而CFD却准确预测出这是由于进气道产生的第二个分离涡拖出后扫到了垂尾造成的抖振,进而使设计人员能据此采取相应措施予以解决。
CFD算法在1970~1985年期间发展迅速,之后发展相对平缓,特别是工程应用进展比较缓慢,仅仅是在提高计算解的速度上有了一定改进。改善CFD算法不仅要求提高计算速度还需要增加计算精度,从CFD发展历史看,改善计算精度往往是以成倍增加计算时间为代价的。因此,必须均衡发展,提高计算精度而不增加时间是未来CFD算法的挑战。
CFD发展的最终目的是不用进行昂贵的地面试验和飞行试验就能验证新的技术或新的飞机概念,能够成为设计师在经济可承受性范围内精确预测气动力、力矩和载荷的可靠工具。达到这一能力的主要障碍是对黏流流场物理现象的模拟能力,尤其是精确预测流动分离点和转捩过程以及湍流流动。
随着CFD在空气动力设计中越来越重要的工具作用,出现了对风洞试验不正确的认识,甚至有人认为,未来在气动设计中CFD可以取代风洞试验。但事实证明这种认识是错误的。
调查表明,在CFD应用于飞机设计前,随着新型号飞机复杂程度的增加,需求的风洞试验小时数增长很快,有了CFD后增长率趋于平缓,但仍不可能少于10000小时,而且对于高度复杂的先进军用飞机来说,需要的风洞试验小时数将更为可观。
例如,美国在发展第四代先进战斗机F-22过程中,在1991年到1996年5年间,利用23种模型在15座不同类型的风洞进行了75项试验,累积17689小时。此外在原型机YF-22的演示/验证阶段进行了19195小时的气动布局风洞试验,在预先演示/验证阶段还进行了7005小时的风洞,合计共进行了43889小时的风洞试验。
风洞试验不可或缺的关键原因是由于现代飞机涉及多学科的综合,一些复杂的干扰现象根本无法用CFD来模拟,所以CFD难以取代风洞的作用,但对于衍生型飞机设计,CFD则可以显著降低风洞试验小时。
2.方案
曙光公司作为国内顶尖的高性能计算系统供应商,多年来致力于为我国航空航天界提供优秀的高性能计算解决方案,推动国内空气动力学数值模拟研究的发展,曙光高性能计算机在载人航天、卫星测控、天文观测、导弹研发、航空发动机设计、军用民用飞机设计等航空航天领域大量应用,为国家天文台、紫金山天文台、北京卫星控制指挥中心、酒泉卫星发射中心、西安卫星发射中心等提供专业服务。曙光超级计算机参与了“神舟五号”、“神舟六号”载人飞船从发射到回收的全过程,在目标轨道计算、空间碎片定轨计算、控制飞船入轨、发射气象气候监测、飞船发射窗口分析等方面发挥重要作用。
目前曙光公司的高性能计算解决方案包括天潮4000A、天潮4000L和天潮4000W,它们都采用集群架构。毫无疑问,集群技术极大的推动了高性能计算的发展,从2002年开始,无论是集群的数量还是集群的销售额都获得了快速增长,目前已经成为了高性能计算的主流体系结构,在国内TOP100中占有90%以上的分额。然而集群的发展正面临着越来越多的挑战,据IDC的一份统计报告指出,集群系统的东电和散热已经成为制约其发展的首要问题,其次是系统可管理能力。不断增长的计算需求使得高性能集群系统的占地面积和功耗越来越大,以上海超算为例,500多个计算节点占地面积达到一个篮球场大小,每年的电费也高达几百万元。实际上,国内大多数用户正在面临着买的起用户不起的尴尬局面。
2007年5月份,曙光公司转为百万亿次高性能计算机曙光5000研发的核心节点机系统TC2600刀片服务器正式发布,以TC2600为核心,结合曙光4000系列集群技术的成为最符合“高效能计算”思想的解决方案。
2.1曙光TC2600刀片引领“高效能计算”
随着高性能计算向高性能服务转变,超级计算机系统追求的目标也将从“高性能”(High Performance)走向“高效能”(High Productivity)。即超级计算机的研发重视系统的实际效率,可靠性、可用性、好用性,努力提高单位面积的性能,降低单位面积的功耗和造价;更加重视高端计算的总体拥有成本(应用系统生命周期内的成本+拥有/获得成本);愈来愈复杂的高端系统需要自动化、人性化的环境支撑(系统的自管理、自配置、自优化和自愈性等)。曙光刀片服务器正是基于这一理念进行设计的。
2.1.1优异的系统平衡架构设计
TC2600刀片服务设计之初,充分分析了机架式机群系统以及市场十几款厂家的刀片服务器产品,对其架构的优缺点进行分析,进行了详细的功率计算,对CPU、硬盘内存发展趋势进行分析,对目前主流高速互连技术进行分析,采用7U10片的系统架构,同时保证计算密度同系统I/O带宽、散热能力等方面的平衡设计。
在背板带宽和延迟方面,是刀片服务器性能瓶颈。而在曙光刀片服务器系统中,整个刀片背板总带宽为950Gb,信号延迟为纳秒级,大大提高了计算系统带宽并降低延迟,很好的实现了计算能力同I/O能力的平衡问题。同时,创新的把PCI-E总线引入背板。因为背板信号为PCI-E,在背板的后端,可以根据系统需要灵活的设计各种高速交换设备,比如InfiniBand交换、Myrinet交换、ASIC交换、FC交换等。
在处理器计算能力上,目前推出的产品对每个刀片支持两个双核或四核心AMD Opteron处理器,在每个机柜内可以实现最多80个处理器核心的计算能力,浮点峰值计算能力最高可以达到8000亿次每秒/刀片机箱(采用2.5GHz主频的四核Barcalona处理器)!
2.1.2节能设计提高能耗比
为降低功耗,曙光刀片服务器采用先进的多渠道节能技术,主要体现在3个层面:
根据实时功耗确定工作电源个数,使电源工作在最佳效率曲线上。
结合AMD领先的“PowerNow”技术修改计算刀片操作系统内核,实现节能。
专用散热通道和自适应的风扇设计降低散热能耗需求,保证系统散热和计算密度达到平衡。
2.1.3高性能的Infiniband模块设计
曙光TC2600刀片主要面向大规模集群计算市场,除了内嵌的千兆交换机模块和PassThrough模块外,还可以提供对20G高速Infiniband网络的支持。曙光IB模块和IBM、HP等公司的做法不同,在该模块内集成了10个HCA卡芯片和1块24口交换机芯片,无须为每个刀片再配置HCA子卡,集成度更高,由于全部自主设计,较传统的利用HCA子卡+外置交换机的方式具有更低的成本。
2.1.4创新的IOE扩展模块
I/O扩展能力一直以来都是刀片服务器的一大诟病,刀片服务器产品在需要扩展其它插件的时候,一般都借助于主板子卡的扩展形式,而且只能进行单一功能的扩展。曙光TC2600创新性的I/O扩展模块打破了一直以来刀片服务器I/O扩展方式的限制。TC2600为每个刀片独立配置了PCI-E扩展插槽,能够兼容网卡、FC HBA、iSCSI HBA、Infiniband HCA等业界绝大部分PCI-E板卡,为刀片服务器系统的I/O扩展提供了更为灵活的选择。
2.2方案选择
曙光TC2600刀片服务器单机柜内典型配置可以支持80个并行计算核心和80GB内存,可以支持最多8000万网格单元的空气动力学CFD模拟(显式求解或分离求解)。以Fluent软件为例,下表给出了不同计算模式下计算模型对系统硬件资源主要是内存的需求:
在系统内存能够容纳计算模型的前提下,处理器的数量和性能影响到计算的快慢,如某计算模型耗用的内存为16GB,可以用1个16GB内存的双路节点计算,也可以用2个8GB内存的双路节点或4个4GB内存的双路节点,多数情况下计算速度会随着节点数量的增加而大幅度提高。如下图所示,Fluent在TC2600刀片服务器上有着很好的加速比。对于Fll1,从4-16CPU加速比达到线速;对于Fll2和Fll3,由于题目规模较大,从4-32CPU都保持线速(其中Fll3需要4GB以上内存,无法运行在1个节点上)。因此,应该从内存和处理器两个层面来综合考虑一个计算模型应该选用哪种规模的硬件配置。
我们以大、中、小三种规模准备了3套基于TC2600刀片服务器的集群方案供用户选择:
3.结论
CFD高性能计算技术正在成为航空航天飞行器空气动力学设计过程中除风洞试验以外最重要的方法,曙光公司在高性能计算领域的深厚积累能够为用户提供多种规模的集群系统解决方案。最新推出的TC2600刀片集群系统具有高性能、高可靠性、低能耗和低占地面积的优势、是符合“高效能计算”思想的最佳解决方案。