HPC集群使用记录

使用PBS(Torque集群管理软件,http://docs.adaptivecomputing.com/torque/4-1-4/help.htm#topics/commands/qmgr.htm)和maui调度软件

公司目前集群共包含4台计算节点(512集群+2T内存),可用存储空间460TB

1.命令提交

#!/bin/sh

#PBS -N JOB 指定作业名称
#PBS -l nodes=2:ppn=8,vmem=80m  节点数量以及所要的核数(示例为2节点*8核)
#PBS -o %JOBID.out 指定作业完成后的输出文件
#PBS -e %JOBID.err 指定作业出现错误的输出文件
#PBS -l walltime=120:00:00 作业处于运行状态的最长时间
#PBS -q batch 指定作业队列
#PBS -m abe 发送邮件参数(n:不发送邮件;a:作业被批处理系统中断时;b: 作业开始执行时;e:作业执行结束时)
#PBS -M [email protected] 邮件列表

PBS -l 指定作业所需要的资源,设定对可消耗资源的限制 :

  cput: 作业的所有进程使用cpu最长时间
  file:作业可以建立单个文件大小的最大限制
  pcput:作业的单个进程可以使用CPU的最长时间
  pmem:作业的单个进程可以使用的物理内存的最大值
  pvmem:作业的单个进程可以使用的虚拟内存的最大值
  vmem:作业可以使用的物理内存的最大值
  walltime:作业处于运行状态的最长时间
  arch:指定系统管理员所定义的系统结构类型
  nodes:指定作业独占使用的节点数目和属性,使用“+”可连接多种节点定义;缺省为1;ppn每个节点上的进程数,缺省1
  ncpus : 请求cpu数量

2.状态查询

qstat -a 已经提交的作业状态信息
qstat -q 节点池状态 (C:作业完成;E:作业退出;H:作业挂起中; Q:作业排队中; T:作业被移走;W:作业等待中;S:作业中断)
qstat -f 4016.manage1 作业的详细信息
qstat -n 查看任务信息(含所在节点信息)
  1. 作业操作
qhold           ##挂起作业,排队状态中的作业,运行中不能挂起
qrls              ##释放挂起的作业
qalter           ##更改作业属性
qdel             ##删除作业
qsub -l nodes=node01,mem=200mb /home/user/script.sh  ##指定node01,直到有需要的资源
mjobctl -s 4127     ##暂停作业
mjobctl -r  4127    ##恢复作业
setspri  优先值  JOBID�    ##表示将JOBID的任务的优先值修改为现在的优先值,优先值在0-1000之内
setspri  -r 优先值  JOBID�  ##这样表示在现有的优先值的基础上加上或者减去指定的优先值,优先值的范围在+/- 1000000000
Torque中的命令:�qalter -p 优先值 JOBID�  ##表示将JOBID的优先值设置为指定的优先值,优先值的范围在-1024~1023
mjobctl -s 82   ##maui 暂停作业状态,插入后续Q作业,如无后续作业,状态自动转为R
mjobctl –r 82   ##resume job

你可能感兴趣的:(HPC集群使用记录)