高性能计算(High-performance computing)简称HPC,指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。有许多类型的HPC 系统,其范围从标准计算机的大型集群,到高度专用的硬件。大多数基于集群的HPC系统使用高性能网络互连,比如那些来自 InfiniBand 或 Myrinet 的网络互连。基本的网络拓扑和组织可以使用一个简单的总线拓扑,在性能很高的环境中,网状网络系统在主机之间提供较短的潜伏期,所以可改善总体网络性能和传输速率。
高性能计算技术在国内外受到高度的重视。它在科学研究、工程技术以及军事技术方面的应用已取得了巨大的成就。国际上科学家广泛认为:21世纪人类所面临的重要科技问题, 如人类基因、全球气候准确预报、海洋环流循环等等,没有万亿次以上的高性能计算机是无法解决的。军事上的核爆炸模拟,也必须使用万亿次以上的高性能计算机。美国90年代的有关高性能计算技术的研究规划,如HPCC和ASCI,都是在总统直接参与下制定的。在我国,高性能计算技术也受到各级领导部门的十分的关注和重视。
从更广泛的意义上来看,计算、和理论与实验并列被普遍认为是人类认识自然世界的三大支柱。这种计算,主要是指应用于科学与工程的、以高性能计算机为平台的大规模并行计算。它已成为一项学科,大规模科学与工程计算。而大规模并行计算也已成为研究科学与工程技术的一种崭新的手段和方式;采用这种手段和方式的科学研究与工程技术研究设计,则称为"计算方式的科学与工程(暂译名)"(Computational Science and Engineering)。例如著名的波音777飞机的设计,基本上是依靠高性能计算机的"无纸设计"它可以大量节省传统设计技术中的昂贵的风洞实验,设计时间也大大缩短。高性能计算为平台的大规模并行计算,在我国也取得很大成果,并且有力地推动交叉学科的发展。
当前我国高性能计算机的研制已进入发展的十字路口。一方面,尖端的高性能计算机系统研制已开始了新一轮探索,正处于各种新思想与新方法产生的活跃期,未来的发展还充满了不确定性;另一方面,廉价的机群系统带来的高性能计算机普及和"平民化"在促进其更广泛应用的同时,反过来对系统设计提出了新的要求,即如何从提高生产率,更有效地解决具体问题角度重新思考高性能计算机的设计。包括具有低功耗、高密度、可共享、可重构、可定制等特点的系统的研究方兴未艾。目前,中国和世界其他国家处在同一个十字路口,没有现成的系统可供我们参考、跟踪和赶超,相反我们在技术选择及产业化方面的努力有可能对国际高性能计算机技术走向产生较大的影响。
我国已经具备了自行研制国际先进水平超级计算机系统的能力,并形成了神威、银河和曙光等几个自己的产品系列和研究队伍,有进行重大技术创新的条件。但是,目前研制的系统国产化程序并不高,处理器、高速网络等关键部件还主要依赖进口。随着集成电路生产基地逐渐向中国转移和国产通用CPU 技术的突破,我国实际上已经开始具备了自主生产高性能计算机全套部件的潜力。下决心集中力量研制包括国产CPU、外围芯片在内的全自主知识产权高性能计算机系统,有可能彻底摆脱我国在高性能计算机关键技术上受制于人的局面,同时扩大我国科研人员研究与创新的领域和范围,改变我国高性能计算机研究与生产环境,确立中国在国际高性能计算机产业中新的地位。
我国高性能计算机市场已开始进入普及和高速发展期,需求牵引将逐渐表现出对技术创新的拉动作用。但是,相对于发达国家,我国高性能计算机系统在工业领域的应用还远远不够。大力推广高性能计算机和计算科学在国民经济领域的应用,其意义绝不仅仅在于高性能计算机产业自身的发展。广泛采用高性能计算机和计算分析方法是一种方法和工具上的飞跃,将可能大大促进其他领域科学技术研究进展,有助于提升我国的综合科研实力。
第一台计算机问世已经半个世纪了,在这期间计算机技术经历了五次更新换代。更新换代的标志主要有两个:一个是计算机的器件,另一个是系统体系结构。从第一代到第五代计算机,器件发生了根本的变化:从电子管、晶体管发展到集成电路,而集成电路又经小规模、中规模、大规模、非常大规模等阶段发展到超大规模阶段。系统体系结构的不断改进,许多重要的概念的不断提出并且得到实现,推动计算机技术向更高的层次发展。从早期的变址寄存器、通用寄存器、程序中断和I/O通道等概念,到虚拟存储器、Cache存储器、微程序设计、系列机、基于总线的多 CPU系统、向量处理机等概念,发展到64位RISC处理器、基于MPP、NUMA、集群等体系结构的可伸缩并行处理系统,计算机系统技术也取得了突飞猛进的发展 。
这一发展速度一直以来是基本遵循摩尔定律的。计算机第一定律---摩尔定律:是指IC上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。摩尔定律是由英特尔(Intel)名誉董事长戈登•摩尔(Gordon Moore)经过长期观察发现得之。摩尔定律所阐述的趋势一直延续至今,且仍不同寻常地准确。在接近50年的时间里,芯片上的晶体管数量从1971年推出的第一款4004的 2300晶体管个增加到奔腾II处理器的750万个晶体管到当前最新的处理器超过10亿个晶体管。CPU制作工艺, 从1965年推出的10微米(μm)处理器后,经历了6微米、3微米、1微米、0.5微米、0.35微米、0.25微米、0.18微米、0.13微米、 0.09微米、0.065微米,0.045微米,0.32微米。人们还发现这不光适用于对存储器芯片的描述,也精确地说明了处理机能力和磁盘驱动器存储容量的发展。该定律成为许多工业对于性能预测的基础。
与此同时,随着制作工艺与技术的进步,显卡的性能也飞速发展,如今,GPU越来越强大,GPU为显示图像做了优化,当前,在G80、G92、G94、 GT200、GT400平台(即Geforce 8~Gecorce GTX480)上, GPU计算性能已经超越了通用的CPU。G80中拥有128个单独的ALU,因此非常适合并行计算,而且数值计算的速度远远优于CPU。如此强大的芯片如果只是作为显卡就太浪费了,因此NVidia推出了CUDA技术,CUDA是一种通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 GPU+GPU高性能计算结构将成为未来的发展趋势。
20世纪70年代出现的向量计算机可看作是第一代HPC,通过在计算机中加入向量流水部件,大大提高了科学计算中向量运算的速度。其中较著名的有CDC系列、CRAY系列、NEC的SX系列和中国的银河一号及中科院计算所的757计算机。80年代初期,随着VLSI技术和微处理 器技术的发展,向量机一统天下的格局逐渐被打破,"性/价比"而非单一性能成为衡量HPC系统的重要指标。90年代初期,大规模并行处理(MPP)系统已开始成为HPC发展的主流,MPP系统由多个微处理器通过高速互联网络构成,每个处理器之间通过消息传递的方式进行通讯和协调。代表性系统有TMC的 CM-5、Intel Paragon、中科院计算所的曙光1000等。较MPP早几年问世的对称多处理(SMP)系统由数目相对较少的微处理器共享物理 内存和I/O总线形成,早期的SMP和MPP相比扩展能力有限,不具有很强的计算能力,但单机系统兼容性好,所以90年代中后期的一种趋势是将SMP的优 点和MPP的扩展能力结合,发展成后来的CC-NUMA结构,即分布式共享内存。其代表为Sequent NUMA-Q、SGI- Cray Origin、国内的神威与银河系列等。在发展CC-NUMA同时,机群系统(Cluster)也迅速发展起来。机群系统是由多个微处理器构成 的计算机节点通过高速网络互连而成,节点一般是可以单独运行的商品化计算机。机群系统比MPP具有更高的性价比,其代表是IBM SP2,国内有曙光 3000、4000,5000, 联想深腾1800、6800等。
每年6月和11月发布的TOP500一直是全球HPC领域的风向标[4],排行榜的变化折射出全球HPC在技术和应用方面的研究现状和发展趋势。TOP500已经成为衡量当今高性能计算领域发展水平的事实标准,人们从中不但可以了解高性能计算领域的最新技术和发展趋势,更可以据此预测未来高性能计算产业的走向。
第34届TOP500榜单已经在2009年11月17日在波特兰召开的SC09大会上揭晓。Cray XT5超级计算机Jaguar最终荣登第34期榜单第一。安装在美国能源部的Oak Ridge Leadership Computing Facility的Jaguar 2009年年初进行过一次升级,Linpack测试性能最高可达到1.75 petaflop/s。1 petaflop等于每秒钟进行1千万亿次的数学运算,Jaguar凭借着新的处理器冲到了榜首,其理论性能峰值可达到2.3 petaflop/s,采用了将近25万个内核。这次安装在我国国家超级计算天津中心的"天河一号"跻身第五位,这套系统被用来解决石油钻探中的科研问题以及大型航天器设计的模拟仿真,这也是我们在TOP500榜单排名最前的一套系统,设计采用了英特尔至强处理器和AMD GPU作为加速器,每个节点包括两个AMD GPU附加于两个英特尔至强处理器。
09年全国高性能计算学术年会在长沙举行,会上发布了2009年中国高性能计算机性能TOP100排行榜。此次榜单排名第一名的国内高性能计算系统--国防科大设计的天河一号首次突破峰值1PFlops(千万亿次)大关。
中国HPC TOP100的第一名,世界TOP500的第五名,天河一号将成为滨海新区超算中心的中坚力量,而这类的超算中心在中国正在迅速的增加,除了非常著名的上海超算外,还有成都超算中心,北京超算中心,华南超算中心,中科院超算中心,深圳超算中心,无锡超算中心,广州超算中心,各地的超算中心风起云涌,这类的超算中心的建立促进了中国HPC应用,将会给中国的HPC商用建立起一个较好的平台,而且这些超算中心为了要把自己的计算能力充分利用,会更多的促进企业去使用这种计算能力来帮助自身的发展。与此同时,各地高校也纷纷搭建起高性能计算平台,南京大学,上海大学,北京航空航天大学,四川大学,中国传媒大学,云南大学,北京大学等都建立起了高性能计算平台。
从世界的TOP500乃至中国的TOP100来看HPC的发展,不难发现HPC的发展趋势以及存在的问题。
国际HPC格局基本稳定,体系结构主流化,标准化。
在国际上,美国仍然是HPC的最大用户,在HPC领域的综合发展水平依然是全球第一,其全球霸主地位牢不可破。亚洲最大的用户是日本,其次是中国。对于高性能计算采用的硬件,Inetl仍是最大赢家,而产商方面,IBM和HP是最大赢家。高性能计算体系结构发展中,集群结构、千兆以太网互联技术和 InfiniBand技术占据主流地位。InfiniBand正呈增长趋势。操作系统方面,Linux已逐渐代替Unix成为HPC的首选操作系统。
网络化是高性能计算机最重要的趋势
网络化的趋势将是高性能计算机最重要的趋势,高性能计算机的主要用途是网络计算环境中的主机。以后越来越多的应用是在网络环境下的应用,会出现数以十亿计的客户端设备,所有重要的数据及应用都会放在高性能服务器上,Client/Server模式会进入到第二代,即服务器聚集的模式。
网格成为高性能计算一个新的研究热点
网格(Gird)已成为高性能计算一个新的研究热点。网格将分布于全国的计算机、数据、存储设备、用户、软件等组织成一个逻辑整体,各行业可以在此基础上运行各自的应用网格。网格最原始的设想是将分散在各地的高性能计算机连接起来,形成强大的综合计算能力。从这个角度看, 网格技术有可能成为实现Petaflops的另一条途径,但是,用网格技术实现Petaflops仍需要一些关键技术的突破。
高性能计算领域软硬发展不平衡
在国内方面,我国超级计算机的规模越做越大,但是我们却找不到能够让超算中心运作起来的实际应用。我国高性能计算产业机器大应用小、"软""硬"发展格局失衡。这种失衡体现最为明显的一个缩影是上海超级计算中心。该中心拥有计算峰值性能高达230万亿次的"魔方"曙光5000A超级计算机,总共拥有的CPU内核数达到3万个,而实际上,应用却远远没有跟上,使用16核以下的作业占到了60%,17-160核的作业占39%,160核以上仅仅占到1%。而美国能源部下属的橡树岭国家实验室的Jaguar TX5,该系统拥有15万颗CPU核,是一套千万亿次级超级计算机,但其科学计算作业却安排得很饱满,可利用3万以下 CPU核的作业占50%,3-4.5万核的作业占32%,4.5-9万核占18%。
两相比较,差距非常大,我国高性能计算领域软硬发展严重不平衡。
探求复杂的物理世界与人类社会本身的应用一直是驱动计算机和计算科学发展的动力。近年来,科学研究方法已经从传统的理论分析和实验分析逐步向计算分析过渡。一些复杂问题的研究已经很难通过实验方式进行,或者是因为系统本身过于庞大和复杂而根本无法实验,如全球气候模型;或者是因为成本过高,进行大量实验 不现实,如燃烧过程;或者是实验活动自身受到限制,如核物理模拟等。对这些问题的研究构成了对计算能力永无止境的追求。相比之下,摩尔定律的发展远远不能满足应用的需求。
高性能计算作为第三大科学方法和第一生产力的地位与作用被广泛认识,并开始走出原来的科研计算向更为广阔的商业计算和信息化服务领域扩展。更多的典型应用在生物工程、电子政务、石油物探、分子材料研究、金融服务、教育信息化和企业信息化中得以展现。
以生物计算为例,亿万次计算机,大概可以模拟1万个原子规模的酶催化反应;千万亿次计算机,可以模拟10万个原子规模的新陈代谢过程;即使计算能力再翻 1000倍,达到每秒一百亿亿次,也刚刚能模拟DNA蛋白质折叠的初级阶段,不到1个微秒的物理过程。因此,应用对计算能力的需求远远超出现有高性能计算机的能力。
另一方面,随着高性能计算机性能的提高、价格的降低,高性能计算已经从传统的满足科研和国家战略需求走向更广泛的行业应用,成为其他领域发展的关键性支撑技术之一。已经有越来越多的经济部门使用高性能计算机,如石油勘探、机械设计、电气工程、 金融分析、生物制药及材料分析等。近年来机群系统的普及进一步加强了这一步伐。象PC机的普及带动了信息化一样,高性能计算机的普及将有可能促进科学和技 术研究方法上的进步,高性能计算机将变成高科技发展不可或缺的工具。如果说能否制造高性能计算机反映一个国家计算机领域的研发实力,那么能否用好高性能计 算机则反映一个国家的综合科研实力。遗憾的是,除石油、气象等少数领域外,中国产业界对高性能计算机的应用远远落后于西方国家。可以说,中国高性能计算机 的应用水平与西方的差距比起设计能力的差距要大得多。
高性能计算机的普通反过来又对其自身发展提出了新的要求。在不强求高峰值和超大规模的前 提下,面对多层次多粒度的具体应用需求,如何相应提供最合适的性能/价格比,如何更有效地优化应用问题从立项到完成的整个过程等都有待研究。
总之,无论在深度和广度上,高性能计算机的发展都面临着巨大的需求和挑战。
科学数据呈数量级增长对计算技术提出了更大的挑战,迫切需要高性能计算机、海量存储系统以及高速网络等基础设施的支持。针对高能物理等一大批实际应用的需求,高能所计算中心一直开展高性能计算方面的研究与应用,主要的研究方向包括: 集群计算,网格计算,志愿计算,海量存储。
集群计算具有性价比高、可扩展性好、可继承现有软硬件资源和开发周期短、可编程性好等特点,已成为高性能计算的主流,在多个领域得到了广泛应用,技术相对成熟。但是,随着计算机体系结构的发展,集群计算将重新成为了研究热点。一方面,集群系统的规模逐渐扩大,在一个单一系统中如何有效管理和使用成千上万的 CPU成为一个非常大的挑战;另外一方面,单内核处理器的发展已经遇到瓶颈,多内核架构成为进一步提高处理器性能的必然趋势,如何有效地利用多内核处理器系统对于研究者来说是一个新的挑战。在集群计算方面,主要开展大规模集群管理、网络协议与I/O技术、进程调度、负载共享与平衡技术、性能调试与优化、多核编程开发等。
网格计算是本世纪初信息领域中的一次重大科技进步,用来整合和共享网络上的分布的资源。过去几年中,网格技术已经在科研领域内得到了长足的发展。高能所计算中心根据高能物理等学科的实际应用需求,采用成熟先进的网格中间件,建立和整合多个数据网格资源,运行和维护高性能的网格计算环境,为大科学工程、国际合作等科学计算需求提供服务。目前已经建立了与欧洲及北美之间的高速网络,并加入了世界上最大的网格系统WLCG,是全球200多个网格站点中运行水平最好的站点之一,得到国际同行的好评。当前,高能所网格站点每天与国际站点交换TB量级数据、处理数千个计算作业。在网格平台建设的同时,还积极进行网格技术、数据密集型计算系统等方面的研究,形成一批实用性的技术成果,部分已达到了国际先进水平。
志愿计算是一项使全世界的普通民众能够对基础科学和应用科学面临的重大挑战做出贡献的技术,它通过互联网利用空闲的个人电脑,使其担任数据分析任务。对于科学家们来说,志愿计算代表着一项免费和事实上无限的计算资源。现在,志愿计算已有50多个项目正在运行中,跨越了多个科学领域,包括气候变化,天体物理学,地震监测和流行病学,这些项目得到几百万志愿者的支持。但是,到目前为止大多数项目都是由北美和欧洲的科学家们发起的,中国志愿计算的发展水平还处于初级阶段。高能所计算中心与美国、瑞士、法国等著名国际高校或研究机构建立了紧密的合作关系,并在国内举办志愿计算国际研讨会,与相关科研单位开展志愿计算应用项目,积极推动志愿计算在中国的发展。
科学研究规模的不断扩大产生了前所未有的海量数据,TB(1TB=1024GB),PB级(1PB=1024TB)甚至EB级(1EB=1024PB)的应用逐渐增多,给存储系统带来了巨大挑战。高能所计算中心以海量数据处理的需求为牵引,紧跟存储技术的最新发展,自主集成和开发了基于异构介质的分级存储系统,将磁盘、磁带等不同存储介质通过高速网络整合成一个透明的逻辑存储池,能够轻松满足PB的数据存储与每秒数GB的访问速度需求。在海量存储方面,主要开展虚拟存储、分级存储、高性能I/O、网格数据管理、网络存储系统等技术研究。
参考:
[1] http://202.207.213.2/physic/dzkjjqtwj01/jdwldzjan/jiqun.htm
[2] http://218.65.86.42/WzxxSz/HtmlFile%5C7%5C201003%5C20100325171439328_1729.htm
[3] http://baike.baidu.com/view/2120379.htm
[4] http://baike.baidu.com/view/1488597.htm
[5]樊建平,陈明宇.高性能计算机研究的现状与展望.信息技术快报,2003,(5)
[6]TOP500 Supercomputing Sites.http://www.top500.org
[7] 从Top500看高性能计算的互连网络发展,张清波,周培峰,黄国华 江南计算技术研究所
[8] http://www.doserv.com/subject/hpc091103/
[9] http://server.zdnet.com.cn/server/2009/1105/1506772.shtml
[10] http://www.microvoip.com/Data/market/market01/200911/106778.html
[11] http://www.ihep.cas.cn/jgsz/kyxt/div7/keti/gaoxingneng/jianjie/