如何切入高校HPC市场

高校HPC采购热潮形成
  主持人:从这几年的发展来看,高性能计算机在高校的发展情况究竟是怎样的?
  袁伟:从2005年开始,高校对HPC的采购出现了一个高峰,前几年尽管HPC也有应用,但往往局限于一些知名的大学,比如北大、清华,而这两年随着高性能计算从萌芽阶段走到推广阶段,这个应用已经发展起来了。像德州学院,一个地级市的大学,也是买了两套机器,都是上百万的项目,做高性能计算研究。我上次去合肥也了解到,安徽科技大学每年用在高性能计算投入就有4000万,从应用上来看,物理、化学、生物、材料等系别对HPC的需求比较大。
  主持人:是什么原因造成HPC在高校能够如此迅速的普及呢?
  袁伟:至于能够如此迅速发展的原因,我认为有几点,一是高性能计算机的价格降下来了;另外就是技术的门槛降低了,原来使用高性能计算做研究有很多的门槛,现在来说不一样了,因为有很多的渠道,网上有很多的资料,而厂商对培训工作的开展也格外重视;还有另外一点,就是一个大环境,政府的投入大了,实际上,HPC主要是做政府的生意,学院的研究也是靠政府的投入。国家已经看到了高性能计算对自身发展一个重要的意义。2006年国家就评了七大科技金奖,其中高性能计算机就是其中一个,因此国家重视后这方面的投入就比较大了。
  主持人:从规模上来看,现在高校在采购HPC的规模通常有多大?从投入上来看,这几年高校在HPC上的投入变化呈现出怎样的特点?
  袁伟:高校采购HPC的规模,应该跟许多的因素都有关系,一个是研究应用的需求,就是做这个课题研究需要多大计算能力,第二个就是实际的经费,这是首先考虑的两个因素。
  从实际的采购来看,有两种情况,第一,如果是各系别的老师自己买机器给自己的系别用,机器规模不会特别大,通常就十几个到几十个节点,峰值计算也就两万亿次;第二种情况是高校建设自己的IDC中心,也就是我们叫的网格,这种投资非常大的,有可能是几千万,超过十万亿次。而第二种情况的这种发展趋势现在看来已经很主流了,像南京航空大学、北航、福建大学、广州大学,现在都在投资上千万的资金规模建立计算中心,这样一来有几个好处,一是如果单个系别用自己的经费来买,每个机器的规模都不是很大,但是一个学校来买投资上千万就可以买到几百个节点。
  另外高校老师应用还有一个特点,这个机器买了以后,可能某段时间用的比较多,某段时间不怎么用。如果是计算中心,一些老师应用的时间段上就有一定的交错性,这就适合于资源共享的思路,资源利用率就提高了。
  还有一个好处在于解决了软件的问题,我们知道软件是按照CPU收费的,如果两个老师做流体的研究,都买这方面的软件,就造成了双倍的投资。如果学校提供,这样大家都可以用,因此从软件投资方面来看也有很大的综合性的性价比。
Infiniband将有很大机会
  主持人:现在给高校的高性能计算机解决方案中,哪些标准是比较主流的?
  袁伟:从目前来看,高校主要是以Infiniband为主。从价格来上,高性能计算网络有几种,万兆以太网,SCI、Myrinet、Infiniband等等,这当中,万兆以太网定位不在高性能计算,因为对于高性能计算来说延迟成本是很重要的,而以太网的延迟成本一直下不来,所以用得不多了。而Myrinet是因为Infiniband的推出,造成成本下降,产品不稳定,基本上市场已经被蚕食了。而Infiniband有很多好处,它在制订标准的时候,就为以后的发展留了空间。此外,Infiniband和Myrinet不一样,Infiniband是一个开放的标准,大家一块来制订一个标准,很多厂家都可以来做,你只要有钱,投入就可以了,当然竞争也非常多。它是一个开放的标准,这就有很多好处,首先没有技术上的壁垒,很多有资本的公司,有技术的公司都可以进来,都可以做,使这个产品不断的成熟,性能不断提高。
  另外这个技术水平提高之后,竞争就开始了,价格就可以降得很快。随着它们性能的提高,价格的下降,很多用户也会用,就形成一个良性的循环。使得Infiniband不断为人们所接受,发展势头越来越好。所以可预见的几年里面,Infiniband会有很大发展。
  主持人:高校在建设自己的数据中心的时候,自身往往会遭遇一些什么样的困难呢?
  袁伟:我觉得首先是内部的问题,很多老师觉得这个机器不归他管,使用起来不方便,老感觉不是自己的机器,没有自己的办公室使用方便,他想有管理权限没有。这是一个老师的使用习惯问题,这个有很多原因,主要在于是很多学校的IDC中心的服务做得不够好;还有就是如果学校要建高性能计算中心,学校需要专门拿出一些钱来,而现在的情况却是,很多院系集体投资,学校就不拨钱了,这样一来,管理就出现了混乱。
  主持人:这些困难如何去克服的呢?
  袁伟:首先得提高计算中心服务的水平,使老师得到好处,如果老师能接受了那就好了。这个话题谈到了高性能计算中心经营的问题,国外的高性能计算中心就很好,美国有一个高性能计算中心,在里面如果老师编了一个运行软件做运算,只要说这个软件编得非常好,它不但不收你的技术费,还有一些奖励,这个钱也是政府出的。高性能计算中心很少转换实际的生产力,实际上高性能计算很多还要靠国家的投入。因为目前来说它很少看到收益,但是意义是深远的,这个东西是未来的一个趋势。
  作为一个有远见的国家,有综合实力的国家必须得跟上。这样的话才能运营得好,所以要政府买单。建立这样一个高性能计算中心,提高服务水平,有一些激励措施在里面,使得高校做研究的老师都能体会到计算中心的好处,接受这点之后就好办了。
集成商要学会做高级服务
  主持人:那么从技术层面上来看,如果一个集成商要想做好高校的HPC建设,需要在技术层面解决什么样的问题?
  袁伟:一个学校如果建高性能计算中心的话,需要很多这方面的专业人才,但现实情况却是高校缺乏懂IDC的人才。高校里面很多都没有这个专业,这跟以前高性能计算应用比较窄是有一定的关系的。所以学校里面在建这个的时候,首先遇到的就是人才的问题。这么大机器没有合适的人来管理,而且他也不知道怎么样来运营。还有一个技术层面,你要做一个高性能计算中心,你买这么多机器,老师要用这些软件,就要装上,会装吗?物理、化学、生物的,每个领域都是几十种软件,谁也不可能全会安装,所以高性能计算中心这个做不了。
  还有一点,如果要把一个高性能计算中心建设好,提供很好服务,需要做一些其他的服务。比如说一个老师要做高性能计算,他不懂,你能不能提供一个很好的培训?为用户一些高级的服务,这个服务目前我们的集成商是很缺乏的。所以如果帮助高校来做这些事,可以通过一些技术上的支持,有一个初步的合作。
  主持人:还有一个问题就是系统资源整合的问题,现在各大高校都非常重视,对集成商而言,针对高校的解决方案应该从哪里入手呢?
  袁伟:的确,IDC数据中心整合以前,各个系的资源有一种浪费的情况,但这里有一个支持异构的问题,资源整合应用其实很多都是技术层面的问题,这个可能是牵涉到具体的,很多宣称能够做资源整合的厂家或者是集成商,往往都是一句口号。高性能计算,如果是完全不同的机器,要想完全实现虚拟化,是不现实的,可以说,现有的技术手段还解决不了,因为X86与RISC的架构完全不一样,目前能够做的就是把这些计算机连接起来,使它们能够实现物理上分布互联实现资源的整合,资源共享,但是这个共享还是初级的,还没有那么完美的。
  网格要做好有两个门槛,第一个是带宽要提上去,如果是物理上分布的两个机器共同计算起来,目前几兆的流量是不可能的。第二个就是安全性的问题,必须要在技术层面上保证安全。
  主持人:那么对集成商而言,他们在服务上应该如何去做呢?
  袁伟:我觉得,首先要帮助学校高性能计算中心提升服务质量水平。当然提高这个有很多因素,一是人员服务的态度,另外一个就是管理的水平。建立高性能计算中心,要借鉴商业化运营理念,把服务做好,采取一些商业化的理念,把服务水平提高上去,从技术层面把技术服务水平提高。能够确确实实使这些老师感觉到用计算中心使用上没有什么方便,并且比自己单独配置机器的花销要少。如果把这个问题解决了之后,学校里面整合资金,建计算机中心都不成问题了。
  主持人:在技术支持上,是否应该做到全免费用呢?
  袁伟:这个很难做到免费,因为一个技术人员,有可能你委托他做,有可能你们一块做,最后很可能是三四个人一起做。他有一定的投入,虽然这个钱都是国家投的,但是在划分上很难做到完全免费,不同结构可能还要收取一些费用。但是你出这个费用也是国家出的,只是具体的分配问题。但是具体起来很难是完全免费的。如果免费就会造成资源的浪费,利用度不高。老师在算的时候因为是免费的,会占用很多的机器,翻来复去的算。但是如果收费还是即时分配,这个高校就会根据自己不同的情况去调整,有一定的策略,无论是收费还是分配,都有一些管理上的策略,这个难就难在不可能完全一样,因为完全一样,照搬别人就可以了,但是还要体现一个差异化,这是一个难题。
  主持人:对于高校用户而言,他们在对HPC还有哪些认识上的偏见呢?还有哪些观点需要校正的呢?
  袁伟:我们做项目的时候,经常会遇到这种问题,一开始和用户做交流的时候,用户有一个信息不对称的问题,有一些偏见。遇到这种问题的时候,我们给用户一个具体的资料,真凭实据来说服他。如果用户还是有偏见,不认可的话,我们还有一个最实际的方法,就是做测试。你自己实际运行一下,选出一个很好的服务器。因为用户并不是很熟悉这些,虽然是学计算机的,但并不是这方面的专家。我们会用一些理论的依据做介绍的工作。如果用户有一定能力还可以做实际性能的测试。
  再一个就是用户对这个高性能计算不了解,有的用户认为一个节点要配两个硬盘,甚至有的要求配三个硬盘,其实这个都是没必要的,就是性价比不高,没有必要的用户要求,也会遇到这样的情况,有的用户认为做RAID性能高,但是他不明白计算机扮演角色的特点,这时候需要集成商尽量说服他们,给他们讲解。
  还有就是系统的使用方法问题,有的用户投的钱比较多,200万的投入买几十个计算节点,而IO节点的就只要一个,他认为没必要用IO节点那么多。但是实际应用几十个节点同时通过一个以太网写入数据,这样是一个很大的瓶颈,可能用户一开始没有考虑过这个问题,或者不知道它的应用会给系统带来多大的压力。所以我们做项目的时候,跟客户交流的时候会多重视这块,比如说应用上对IO压力大不大,然后有可能的话,还需要跟用户一块通过实验来找到这样一个IO节点和计算节点最佳的配置。