PBS/Torque之说明文档

    本说明文档来自Adaptive Computing的Help。


0 引言


(1)什么是资源管理器

    Torque本身有一个内嵌的任务调度器qbs_sched,但是还要和资源管理器一起工作才能起作用。资源管理器提供了低层的启动、维持、取消和监视任务(Job)的功能。没有资源管理器的这些低层功能,任务调度器无法管理任务。

(2)什么是批处理系统

    Torque具有灵活的调度能力,因此常用在批处理系统中。所谓批处理系统,是一些计算机和资源(如网络、存储系统、认证服务器等)的集合,其蕴含的思想就是整体大于各部分之和。一些批处理系统仅仅是一些运行单处理器任务的机器,一般由用户自行管理。另外一些批处理系统集成了成千上万的同时执行任务的机器,需要检查软件认证、访问硬件及存储等等。

    批处理系统中的资源池可以有效的降低资源管理的难度,而给用户提供统一的方式进行管理。一旦配置正确,批处理系统可以抽取正在运行和管理的任务的细节,运行更高的资源使用。举例来说,用户只需要制定执行一个任务的最小约束而不用知道任务所在的机器的名字。通过这样统一的抽象接口,批处理系统可以同时处理成千上万的任务。

    批处理系统包括四个主要部分:(1)主节点;(2)提交节点;(3)计算节点;(4)资源。

    批处理系统的任务的四个基本阶段:(1)创建;(2)提交;(3)执行;(4)终止。


1 概述


1.1 Torque安装综述

1.1.1 Torque体系结构

    一个Torque集群由一个头节点(head node)和多个计算节点(compute code)组成。头节点运行pbs_server进程;计算节点运行pbs_mom进程。提交和管理任务的进程可以安装在任何节点上。

    

更新中。。。。。。

你可能感兴趣的:(PBS/Torque之说明文档)