LMT NEW PBS作业排队系统优化运算资源

                LMT NEW PBS作业排队系统优化运算资源

近年来,随着计算机硬件价格的不断下降和性能的不断提高,计算机在各行各业应用也变得日益广泛,对各类计算机软件的需求空前高涨。特别是为了满足目前许多企业优化利用内部各类资源的应用现状,对基于分布式、集群系统之上的系统管理软件的研究和开发,也引起了国内外众多科研机构的兴趣。

网络作业管理系统一般具有典型的client\server结构,server端的功能主要包括批处理排队、作业调度、作业执行及资源管理等;Client端的功能主要包括作业定义、启动与服务器的通讯、作业执行状态查看及控制等。在server与client之间,采用TCP\IP网络连接协议及与平台无关的数据通讯协议。LMT NEW PBS作业管理系统涉及并行编程技术、并行机环境、事务处理、网络协议、数据库系统、网络文件系统等多个领域。

目前,作业管理系统可以大体分成两类:一类是通过扩展NQS系统而来,这类系统与原有的NQS系统有着良好的兼容性;另一类则是自己重新定义整个系统,与其他任何系统都不兼容,但是有的也提供了与NQS系统协同工作的方法。

作业管理功能最早由unix操作系统本身实现。由于unix主机通常昼夜运行,在大多数的非工作时间里系统资源无法得到有效利用,因此产生了“在以后某个时刻执行作业”、“在资源得到满足的情况下执行作业”、“按某种时间周期有规律的执行作业”等作业管理的思想,并将其实现。

大型机上的计算任务被分散在多台工作站上执行,人们使用自己桌面上的台式机完成了更多的任务。但经过美国国家实验室的一项调查表明,工作站的资源利用率很低,不到总资源的10%,通常一台工作站任务繁重,而另一台工作站却处于闲置状态。另外,从系统运行时间看,在一周168个小时中有效的工作时间往往只有40多个小时左右,造成了资源的严重浪费。为了能够更加有效的利用计算机网络和工作站系统的能力,人们扩展了批处理系统,出现了以批处理队列系统为代表的传统的作业管理系统。后来,随着计算机网络技术的发展和对网格技术研究的深入,基于网格技术的作业管理系统的研制工作也开始起步,但尚处于开始阶段。现有的网格系统对作业管理的功能还不够强,一般只支持批处理作业,没有独立的作业调度模块,对作业的调度往往由资源调度模块来完成。因此,对于基于网格的作业管理技术还有待发展。

LMT NEW PBS作业管理系统的开发,提出了一种适合集群环境下的高效资源分配与利用方案,并给出了详细的设计过程。深入分析了作业管理系统的内部运行机制、安全机制、调度策略等方面问题,提出了改进方案。

LMT NEW PBS作业管理系统集群技术的特点:

在计算机应用领域,为了 实现系统的高吞吐量和高性能,一个行之有效的方法就是提高处理器的处理速度,从而满足应用程序对计算能力的需求。但这种方法的进一步发展却受到了物理因素的制约。为了满足应用对高性能和高吞吐量计算系统需求的不断增长,集群计算就此应运而生了。所谓集群就是将多个廉价的计算机有机的结合在一起,使它们协调工作,以此达到高的计算能力。这种系统就好像一个虚拟的大型计算机,作业在这个虚拟的大型计算机上有机的执行。

LMT NEW PBS作业管理集群系统之所以成为构建高吞吐量和高性能计算环境的有效途径,主要原因是它具有以下几个明显的特点。

①、成本较低。传统巨型机或专用大型机的价格都比较昂贵,往往要几百万甚至上千万美元,而构成集群的工作站或PC机的价格一般比较便宜。一个由几十台工作站组成的集群系统就可以满足相当多的应用要求,成本相对很低。

   ②、用户投资风险小。用户在购置传统巨型机或专用系统时会担心使用效率不高,系统性能不能充分发挥,从而浪费大量资金。集群系统不仅仅是一个并行处理系统,它的每个节点同时也是一台独立的工作站,即使整个系统对某些应用问题并行度不高,但它的节点仍然可以作为单个工作站使用。

   ③、易于构建。由于集群系统大多采用个人工作站和通用网络,使得节点及系统管理相对容易,且可靠性高。既不用重新研制计算节点,又不用重新设计操作系统和编译系统,节省了大量的研制时间。

   ④、可扩展性好。从规模上说,集群系统大多使用通用网络,系统扩展容易;从性能上说,对大多数的并行应用都有较高的效率。

LMT NEW PBS作业管理系统的简单介绍:



(作业列表_查看所有作业:显现出作业的详细信息。作业详细信息包括作业文件参数、作业计算结果、作业ID、主文件编号、所需CPU数量、所需内存大小、软件名称、版本等等。


 

(作业调整:可以对正在排队的作业进行排队顺序的操作。)

 

 

 

(节点列表:显示所有节点记录。

 

 

 

(节点维护:显示所有的节点信息,并且可以对节点进行新增、修改、删除操作。

 

 

(节点平台管理:显示出所选节点平台的详细信息,并支持对去进行修改。

 

 

(可用CPU配额管理:显示的是用户空闲时可用上限CPU数、紧张时可用上限CPU数。

 

 

 

(作业节点实时状态监控图:显示当前实时的节点监控结果。

 

 

 

(作业数据分析:依据时间范围、软件视图、用户视图、只显示软件、只显示具体队列等方式选择要查询的数据。

 

 

 

(用户列表:查看用户的角色,系统管理员或提交人员角色。

 

 

 

CAE维护:查看到按软件名称排列的列表。该列表显示软件名称、软件版本、软件安装目录、软件程序绝对路径、主文件 后缀名、MPI路径、MPI版本等信息。

 

 

 

(系统检测:可以对异常情况平台进行立即检测及修复功能操作。支持对平台查看历史日志。

 


你可能感兴趣的:(node,作业调度,lanmantech,LMT,PBS,作业排队,队列运算)