Slurm基本使用

1 Slurm作业管理系统

系统使用Slurm作业管理系统,采用共享模式。为避免系统资源浪费,使用时请尽量保证满核提交(即为单节点核数的整数倍),不要在登录节点直接运行计算程序。作业管理系统常用命令如下:

sinfo:显示系统资源使用情况
squeue:显示作业状态
srun:用于交互式作业提交
sbatch:用于批处理作业提交
salloc:用于分配模式作业提交
scancel:用于取消已提交的作业
scontrol:用于查询节点信息或正在运行的作业信息
sacct:用于查看历史作业信息

2 sinfo查看系统资源

sinfo得到的结果是当前账号可使用的队列资源信息,如下所示:
Slurm基本使用_第1张图片

第一列PARTITION是队列名。
第二列AVAIL是队列可用情况,如果显示up则是可用状态;如果是inact则是不可用状态。
第三列TIMELIMIT是作业运行时间限制,默认是infinite没有限制。
第四列NODES是节点数。
第五列STATE是节点状态,idle是空闲节点,alloc是已被占用节点,comp是正在释放资源的节点,其他状态的节点都不可用。
第六列NODELIST是节点列表。
sinfo的常用命令选项:

sinfo -n comput1
指定显示节点comput1的使用情况

你可能感兴趣的:(slurm,运维,git,开源协议,开源软件,slurm)