在最新公布的全球高性能计算TOP500名单中,英特尔可谓高歌猛进,已有399套高性能计算机正在采用英特尔处理器,三个月前刚刚发布的英特尔至强5500系列处理器更是受到了高性能计算领域的追捧――33套高性能计算系统凭借该处理器在计算能力上的大幅度提升,占领了TOP500榜单上的重要位置。此后不到1周,“优于智 源于芯”――英特尔2009高性能计算行业研讨会在成都召开,英特尔在高性能计算领域的“热力”也第一时间扩散到了中国。
HPC TOP500榜单中的新趋势
“在新一期全球高性能计算TOP500名单中,近80%的用户采用的是基于英特尔处理器的系统;较去年11月有5.6%的增长。”远道而来的英特尔高性能计算及工作站应用总监Paresh Pattani对HPC TOP500名单中分析的同时,也在描绘着HPC产业格局的变化格局和发展方向。而在英特尔在TOP500榜单攻城略地的同时,原来让高性能计算用户趋之若鹜的IBM Power以及AMD皓龙平台正在逐渐的失宠。
英特尔高性能计算及工作站应用总监Paresh Pattani
尽管IBM混合架构的“走鹃”(RoadRunner)仍以1.105Peta Flops的计算能力保持着“状元”位置,不过IBM在整体TOP500中失去了5个席位;AMD的情况则更糟一些,四核上海和六核伊斯坦布尔的接踵而至没能改变什么,皓龙风光不再,AMD失去了17个席位。
伴随着多核处理器的发展,采用四核处理器的高性能系统也在快速普及,新TOP500榜单中的四核系统已增至340套,较去年11月增加了近50套,其中包括33套全新架构的至强5500。
名副其实的“至强”
当英特尔推出第一款服务器专用处理器Pentium PRO之后不久,英特尔也许意识到了建立单独品牌的重要性,再推出Pentium II服务器专用处理器时,一个独立的品牌也横空出世,也就是“Xeon”,中文称作至强。
今年三月最新一代的至强5500发布,英特尔创新的Nehalem微架构也让这款处理器成为了服务器核心中的“至强”。通过采用全新的DDR3内存系统、QuickPath快速通道连接技术、智能节能技术以及包括PCI-Experess 2.0以及10Gb以太网的全新I/O子系统,至强5500实现了具有时代意义的跨越。
由于QuickPath技术的引入,至强5500在多处理器作业下,每颗处理器可以互相传送资料,并不需经过芯片组,从而大幅提升整体系统性能。同以前的双路服务器相比,至强5500在性能表现上超越了以前所有的至强处理器。与前代基于英特尔至强 5400 系列处理器的系统相比,新系统在各应用领域均有 70% 到 125% 的性能提升。
同2005年的单核至强平台相比,至强5500性能提升了近9倍,同时系统功耗还降低了20%。这意味着如果采用单核至强平台的用户全面升级到至强5500平台,用户可以在8个月内收回所有硬件投资,这包括了占地、电力、系统及应用软件许可、管理等多方面成本。
同样是因为QuickPath,全新的至强5500平台将在对内存带宽敏感的高性能计算领域获得更强的竞争力。IDC中国计算机系统研究部高级分析师周震刚曾表示,“在当前严峻的经济形势下,技术架构的进步是体现IT价值的重要方面。英特尔至强5500系列服务器平台的推出,将巩固英特尔公司原有的优势,并进一步冲击高性能计算等市场。”
英特尔中国服务器平台经理顾凡
在至强5500的产品定位里,由于高性能计算的计算需要,至强5500中最高档的三款产品:x5550/ x5560/ x5570成为了构建高性能计算系统的首选。英特尔中国服务器平台经理顾凡表示,这三款处理器是至强5500的模块化设计的集中体现,支持最高的6.4GT/s QPI速度,共享8M缓存,1333Mhz DDR内存,+3级智能加速技术,以及超线程技术,仅性能方面,x5550就超越x5540达13%。
在与竞争对手先后发布的两款处理器的对比中,至强5500也同样赢得轻松。与Shanghai相比,在天气、能源、生命科学等HPC应用,至强5500有约20%~60%的性能领先;即使与新发布的与“伊斯坦布尔”相比,在SPEC与VMmark等基准测试中,至强5500也有有31%~57%的性能优势。
从处理器到智慧的运算
多种的功能的支持,也让英特尔的高性能平台在拥有强大的性能的同时还拥有了“智慧”的特点:假如用户的应用更依赖单核高主频的运行模式,至强5500处理器就可以通过关闭其他核心而达到提高单一核心主频最高三档的来支持用户的需求;而对于业务进程繁多的应用,则可以通过打开SMT多线程模式来进行支持;在能耗要求比较严格的地方,英特尔的智能节能技术则可以动态的关闭和开启核心,让能源的利用率达到最高。
模块设计的至强5500不仅能满足用户的多种扩展要求,也能十分显著降低英特尔的成本。众所周知,处理器的设计与制造成本已经越来越高,如何让同一架构处理器的设计制造最为简化和通用,又能产生明确、清晰的市场区分已经成为芯片厂商需要解决的问题。对于51CTO记者关于成本方面的问题,顾凡表示,至强5500的模块化设计也会简化芯片的设计难度,并降低制造方面的成本。
钟摆滴答
从至强5100系统开始,英特尔开始实施TickTock(钟摆)策略,其核心思想就是通过一年更新架构,一年更新工艺来达成处理器持续性的跨越式前进,在对用户进行承诺并给予明确的市场预期同时也为英特尔自身的业务设定了清晰的目标。毕竟钟摆策略的交替更新,会对用户每一年都有产生新的吸引力:要么在成熟制程工艺上升级微架构,从而较大的提升性能与功能;要么在成熟的微架构上升级制造工艺,从而让时钟频率与能效实现双重提高。
英特尔TickTock(钟摆)发展策略
清晰的市场策略、优秀的执行力与良好的产能让英特尔获益匪浅,从2006年11月开始,英特尔在HPC TOP500榜单的席位累计增加了近150个。
摩尔定律与开放性系统的推动力
已经持续了30年的摩尔定律仍然像时钟一样发挥着作用,作为简单评估半导体技术进展的经验法则,IC制程技术的线性发展推动了IC产品乃至IT业界持续的降低成本、功耗,提升性能,增加功能。尽管为研究和实验室以及投资新工艺的生产线成本需求与日俱增,很少能有财力投资建立和维护芯片工厂的企业――这也成为某些“反摩尔定律”者的主要依据,但英特尔仍在努力确保摩尔定律未来10~15年应依然适用,今年早些时候,他们宣布将在两年内投资70亿美元用于升级在美国的生产设施,而这笔投资将主要用于32纳米技术的芯片制造工厂。英特尔首席执行官保罗・欧德宁在一份声明中表示,“32纳米工厂的产能实在不同寻常,其产出的芯片将是未来数字世界的基石,创造业内遥遥领先的经济效益。”
同样支持产业快速发展的还有开放性的x86系统,再结合了开源的Linux操作系统后,高性能计算的“Open”特性正在得到更好的体现:一方面硬件架构与软件的开放带来更好的经济特性,性能还有超越传统的RISC之势;另一方面处理器正在向多核多进程发展,开放的体系结构让更多人参与软件应用的编写与优化成为可能,也能够不仅仅让用户投资不菲的高性能系统“迅速”的用起来,还要“更好”的用起来。
多核与软件并行
对于高性能集群其首要的技术指标是整体的性能设计,英特尔除了处理器平台保持高性能低功耗外,目前利用英特尔的应用软件计算、通信和数据存储分析的Intel SoftwareTools可以实现对应用软件的精细化特征分析,通过软件调优的方式,可以将某些行业应用中现有的整个高性能计算系统的能效从20%提高到60%。
在展示出的实际案例中,通过在石油与天然气勘探领域多种应用进行基于开放标准的灵活的多层面并行优化,至强5500系统实际会产生约5%~30%的性能提升,而与上一代Harpertown处理器相比,至强5500则能提升应用性能2~3倍。
众所周知,并行计算机程序比连续计算程序更加难以编写,因为同步问题将带来不少潜在的软件漏洞,其中竞态条件是最常见的问题。在不同子任务之间的通信和同步往往是保持并行程序性能的最大挑战。
英特尔高性能计算及工作站应用总监Paresh表示英特尔将通过多方面实现并行、以及利用硬件架构和软件的配合实现面向未来的可扩展性。尽管英特尔未来将会朝着多核、众核、混合架构的多种芯片结构迈进,但Paresh肯定的表示,英特尔会确保提供标准的软件开发环境;单一的软件栈;简单化的应用架构等等以实现可有效降低成本的HPC解决方案,他指出,摩尔定律同样是指引英特尔未来HPC解决方案的模型。
钟摆的下一步
英特尔钟摆已经走了4年,而至强5500可谓是其中完美的一摆,也是英特尔继Pentium Pro以来最重要的一次发布,Nehalem架构的成功也引发业界对四路处理器的期待,这就是将在2010年投产的Nehalem EX。
仅从8核心16进程就可以看出Nehalem EX将是一个“强悍”的四路服务器平台――既拥有Nehalem架构的高性能优势,又可以对付诸如虚拟化平台的多进程应用。而已经发布的Nehalem带给了服务器业界革命性的性能飙升,从来自用户和英特尔的多个数据显示,双路Nehalem系统比上一代至强5400服务器速度高出70%~200%,采用了新架构的双路服务器已经超过了现有的四路服务器的性能。当Nehalem-EX发布之后,我们是否能看到x86对UNIX系统的强烈挑战呢?
答案是肯定的,除了可升级至八路服务器系统,支持128线程的处理能力之外;灵活的QPI架构将能使刀片服务器在两个四路系统和四个两路系统之间灵活转换。更为关键的则是两个平时用于大型主机的技术名词“RAS(可靠性、可用性、适用性)”和“MCA(微通道体系结构)”,Nehalem-EX在这两方面也取得进展,使得过去无法恢复的错误得以恢复。
从硬件配置上,每Nehalem-EX将支持16个DIMM插槽,而整个系统将支持64DIMM,也就是超过500GB内存,Nehalem-EX还将拥有先进的虚拟化技术和I/O技术,将成为2010年企业计算、虚拟化以及HPC的良好平台。
之后的英特尔将步入32纳米工艺,业内首款32纳米可能就是代号Westmere-EP的双路6核处理器,仍将采用先进成熟的Nehalem 平台架构,四路平台的Westmere-EX也将随后推出,尽管没有公布技术细节,按照英特尔的发展思路,我们可以认为这是一颗12核处理器。
此后Nehalem架构将让位给Sandy Bridge架构,这颗8核处理器将支持四通道内存,PCI-Experess 3.0标准,更为先进的SSD固态硬盘技术,以及革命性的英特尔高级向量扩展Intel Advanced Vector Extensions ,简称Intel AVX。
Sandy Bridge的AVX技术将SIMD(Single Instruction, Multiple Data)运算单元直接从128bit扩展到256bits的同时数据传输也获得了提升,理论上说,CPU内核浮点运算性将提升2倍。这意味着AVX是一个专为浮点密集型应用程序设计的将SSE指令集扩展到256位的全新指令集,显然HPC领域将再次为Sandy Bridge而疯狂。英特尔的资料则显示Sandy Bridge较2005年的单核至强相比性能约为14倍,与至强5500相比性能提升约85%。针对全新指令集的开发方式和技术资料已经出现在英特尔的官方网站(http://software.intel.com/en-us/avx/),这种令人钦佩的具有预见性的协同进度,也将促进着微架构与应用乃至业务的和谐发展。
携手产业伙伴加速高性能计算商用化
在最新TOP500排行榜上,来自中国的21套上榜系统中就有20套是采用了英特尔的处理器,这一数据也说明了国内用户对于英特尔解决方案的信赖。而这正英特尔是秉承着“与中国共成长”的长远发展战略、加速高性能计算商用化的理念,致力于与中国IT产业合作伙伴一同为中国行业客户提供最优化的高性能计算解决方案的结果。
由于中国石油企业与中国其他行业客户相比接触高性能计算技术的时间较早,并在业务上比较依赖高性能计算,因此石油企业用户也就成为中国最为重视的高性能计算客户群之一。为帮助中国的石油企业获得更好的高性能计算应用体验,加速其石油勘探进程,进而提升它们的核心竞争力,英特尔也与业界合作伙伴一起从以下几方面为它们提供助力:
・ 提供世界先进水平的高性能计算系统
在英特尔的支持下,国内外领先的高性能计算厂商为中国石油企业的勘探业务提供了众多基于工业标准的至强和安腾处理器的高性能计算系统。通过使用这些开放体系架构的处理器,石油行业客户能以更合理的价格获得拥有领先性能表现的系统,而不必受制于专有系统的封闭性。
・ 携手打造更为专业的应用软件,并提供出色的软件调优工具
英特尔与全球专业石油勘探应用软件开发商及拥有开发能力的石油行业客户有紧密的协作,以共同推动相关应用软件在英特尔架构平台上最大限度发挥其性能潜力,提高石油勘探的精度和效率。
・ 支持高性能计算标准
英特尔与业界合作伙伴一道推动行业标准的建立,为高性能计算的发展打造开放的平台。例如2008年12月18日,英特尔就与H3C、曙光、宝德、信产部软件与集成电脑促进中心、中科红旗、中科院计算技术研究所及中兴通讯等9家合作伙伴共同发起建立了中国高性能计算机产业联盟,以加速中国服务器及高性能计算机产业标准的制订工作。
结语:不仅仅是芯片的生态系统
在为中国石油企业及其他行业客户提供高性能解决方案的同时,英特尔也更加注重与他们的直接交流和互动,本次英特尔2009高性能计算行业研讨会就是典型的例子。通过与业务合作伙伴一同了解以石油行业为代表的高性能计算客户在实际应用遇到的各种复杂问题和对未来的发展预期,英特尔正在完成从芯片厂商向生态系统推动者的转变。与桌面应用不同,拥有复杂的高性能计算用户也更加需要这个生态系统来实现从芯片到应用表现到解决方案乃至业务本身的逐层推进。英特尔高性能计算及工作站应用总监Paresh Pattani对此的总结是“客户的创新将推动我们的创新。”
链接:英特尔高性能计算行业研讨会
从2007年开始,英特尔开始举办一年一度的高性能运算研讨会,这也是英特尔的专家,OEM合作伙伴和行业用户亲密接触的交流平台。来自全国石油石化行业和电力行业企业的领导、技术专家和用户参加了此次英特尔2009高性能计算行业研讨会,并与英特尔的专家共同探讨高性能计算在这些行业的应用状况。