拨开HPC迷雾,助力企业计算

高性能计算(High Performance Computing)技术自从诞生以来,就一直被视为是IT技术的高端领域,拥有一套完备的高性能计算环境往往是一些国家级科研机构的特权。时至今日,我们却可以欣喜的发现,在尤其注重实效的工业企业领域中,越来越多的企业正在引入服务器集群设备,逐步构建自己的HPC计算系统。由此可大胆断言:HPC技术已然成熟,HPC市场蓄势待发。
其实长久以来,企业用户与高性能计算业者一直未能融入同一个话语体系。前者无意去了解那些专业的HPC术语,而后者更加困扰于那些稀奇古怪的企业计算需求;前者经常指责HPC性能指标对实际运算效果的指导意义非常有限,后者也苦恼于针对企业计算需求量身定制集群方案。真是难为了他们!却也成全了泛云!其中曲折,且待我慢慢道来……
第一个问题:企业为什么要应用高性能计算?在开始技术方案之前,我们问遍了周围的所有人,很多人开始愕然、继而不屑、再发长论、终陷沉思,在这许多的思维火花中,我们受益良多:
1、希望高性能计算可以提高数值仿真工作的计算效率;
2、希望高性能计算可以协调数值仿真软件的许可证资源;
3、希望高性能计算可以提高数值仿真工作效率。
哈哈,有趣的矛盾赫然现身了!传统的高性能计算业者一直深耕于并行计算领域,埋首于MPI版本与效率,视线始终局限于硬件及代码编译层面;而用户更加关注的是软件应用,更加关切的是工作效率。这情形恰如关公战秦琼,全然错位了。实际上,企业需要的是高效计算,而HPC技术是实现该目标最为贴近的技术路线了,但是,谁能漂亮的行走于底层技术与客户需求之间的这最后一公里呢?大家,都很失望!
我们只能接着问第二个问题了:企业为什么困扰于高性能计算?这个问题真有威力,如火药引线般招来了连番爆炸,所以只能取点言语残片以作纪念了:
1、集群系统部署太复杂,应用软件安装调试太麻烦;
2、提交计算任务太繁琐,HPC操作体验太糟糕;
3、集群监控管理太深奥,计算过程监控太困难;
4、……
哎呀,原来传统的高性能计算管理工具还是有太高的应用门槛,注重效率的企业用户还是难以容纳大量的“Shell英雄”(注:指特别善于输入命令字符的熟练应用人员),软件应用者根本无意去学习甚至不愿了解HPC的专业知识。此种情形恰如一个饥肠辘辘者急于捕鱼充饥,却被一位大学教授揪住耳朵,大谈鱼类的种族变迁甚至如何饲养才能肥美,这又是何种煎熬啊?
赶快制止住抱怨的情绪吧,让我们共同思考第三个问题:企业需要什么样的高性能计算?泛云科技非常幸运,我们拥有一群充满智慧与开拓精神的行业伙伴,这个小小的问题恰如蝴蝶之翼,瞬间击破了之前整个行业的混沌状态,旋即掀起了一场创新的飓风,SimCloud也正是在这场飓风中诞生了。现在就让我们回头看一看这场头脑风暴带给我们的宝贵财富吧!
企业级高性能计算是企业根据自身研发需求,通过采购高性能计算硬件,安装高性能计算系统,集成高性能计算软件,部署应用管理组件等一系列工作而组建的企业级计算平台。它不同于国家级超级计算中心的公共计算平台,超算用户仅有提交计算任务的权限,其他需求(如实时监控作业等)却只能“处处碰壁”;更不同于个人并行计算,个人用户集万千权限于一身,如超人一般“无所不能”。企业级高性能计算更加注重贯彻实施企业的资源配置策略,并且通过技术措施实现“好用、用好、好管、管好”的系统目标。
第一、好用
“好用”二字对于企业级HPC计算平台,恰如“好看”二字对于人的脸面。企业级HPC计算平台必须非常方便使用,最好做到零培训,这样的平台大家才愿意用,高性能计算资源才能真正的普及应用。
如果应用人员痛苦于记忆晦涩的命令行参数,纠缠于远程机器节点的抢占,揪心于软件许可证的争夺,试问怎么可能全身心的投入到计算工作中?这势必大大影响工作效率,这样的HPC计算平台误人误事,岂不是废铜烂铁一堆?
企业级HPC计算平台若是“好用”,就应该让工程师不必关心HPC集群有多少CPU,计算节点配置如何,网络IP是多少等等细枝末节,只需简简单单鼠标操作:上传计算文件、设置基本参数、一键提交作业、监控作业状态、电邮获知结果。
其实,HPC就是如此简单!
第二、用好
HPC如同一辆性能卓越的赛车,如何能让它充分发挥计算威力,企业级HPC计算平台就需要通过灵活多元的调度策略,合理均衡的“用好”高性能计算资源。
企业级HPC计算平台往往不像财大气粗的国家级超级计算中心,其具有的硬件、软件资源规模是相对紧张的。因此大家经常会联想到,既然计算资源有限,那么集群应用负载肯定是非常饱和的,肯定用的很好。然而事实却不尽然。
如果你提交的计算任务一直轮不上计算,你会不会重新回到个人电脑上“打小算盘”?
若你的一个只需不到半小时即可算完的作业,却要排在一长串需要几十小时甚至几天才能算完的作业之后,你会不会非常“抓狂”?
集群资源明明有空闲,却因为呆板的资源调度策略而无法灵活应变,甚至管理员也表示爱莫能助,你是否觉得这个平台真的很“弱智”?
调度策略真的很重要:完整的企业级计算平台调度策略不仅要面向硬件资源,也需要面向软件资源,甚至面向单独部门或者用户个体,并且所有这些配置都应该是动态可调整的。只有拥有这样的高弹性调度策略,企业级计算平台才是一辆真正的四驱型全能战车。
其实,HPC真的非常强大!
第三、好管
企业级HPC计算平台虽然在规模上远远不及国家级超级计算中心,但在管理上同样也要涉及硬件、软件、用户、安全,没有一样省心,却又不能像超算中心那样配备专职的IT支持团队。我们经常看到IT管理员是从别的业务上“兼职”过来管理高性能计算系统的,因此企业级HPC计算平台必须要“好管”,千万不能成为IT管理员的噩梦,或者成为淬炼“Superman”的炼丹炉。
如果HPC计算平台的用户管理与企业的域机制一致,IT管理员是否就可以省却了用户管理机制这个大麻烦?继承了用户安全策略之后,IT管理员才有精力专注于用户对于特定HPC应用的权限问题。
如果某个紧急项目需要抢占高性能计算资源,是否需要IT管理员手动为其临时提升优先级别,等它优先计算完成之后再手动复位?为什么不为这种应用专门定制一套调度策略!
应用人员经常会有一些计算作业的问题请教IT管理员,一般都需要IT管理员登录至调度器后台,根据作业信息找到计算文件,然后与应用人员共同分析。为什么不可以实现自服务系统省去这种无效工作?
HPC计算作业不是每次都能成功计算的,极有可能发生残值发散现象,单机计算可以图形化监控相应曲线,为什么HPC计算平台不能实现同样功能呢?
……
凡此种种,我们必须实现这些管理工具,才能让企业级高性能计算平台完整配备针对硬件、软件、用户、作业等一系列的功能接口,真正降低HPC平台管理者的工作强度,有效提升HPC管理质量。
是的,HPC应该如此方便!
第四、管好
企业级HPC计算平台是一个统一而丰富的资源池,涵盖了各种不同领域的计算软件,如何让这些软件真正为所需者用而不为无需者控?如何了解计算软件的特性,以配备相应的计算节点?如何根据资源使用情况,在资源空闲时,设置松调度策略;在资源紧张时,设置严调度策略?如何根据系统账户使用情况,来调整用户资源分配,是减少还是增加?如何在系统排队严重需扩展时,能明确是需增购硬件还是增购软件License,是需要高内存还是大存储?如何“管好”高性能计算资源,是我们一直在思考的问题,其实答案一直藏在集群运转的历史数据之中,只是我们一直不知如何整理利用而已。
优良的计算平台可以提供作业计算时的节点的性能指数,以了解其计算特性;可以提供当前系统计算情况、排队状况、硬件使用情况、软件License占用状态等,方便作出实时调度调整;能够提供针对硬件、软件、用户以及部门的全方位数据分析报表,为管理员在账户权限调整、系统维护扩展等多方面提供数据支撑以及决策支持,……
      真的,HPC可以这样智能!
 
      只可惜我的文字乏力,难以如泛云科技的研发团队所写的代码那般简洁明快,只希望这篇短文可以帮助读者朋友拨开迷雾,看清一个高性能计算应用的精彩世界!
 
    更多好文,请登录 http://www.vancloud.com/club/index.asp?boardid=26


你可能感兴趣的:(职场,高性能计算,休闲,HPC)