slurm任务管理相关命令

最近领导安排做slurm任务管理相关方面的研究,在对已提交任务做"停止"、"恢复"、"取消"等操作时,查阅度娘并没有找到相关的介绍。通过翻阅谷歌才有了些收获,特总结记录以便以后使用。

scontrol命令提供了绝大多数对任务的控制,基本上通过度娘都能够查到,如果需要更详细和完善的介绍,可以查询官网:               https://slurm.schedmd.com/scontrol.html

在对任务做"停止"和"恢复"时就能够用到scontrol:

$scontrol suspend job_id 可以暂停正在运行的任务,并且停止在当前执行的step上,以便稍后进行恢复。

相对应的,可以通过以下命令来恢复上述暂停的任务

$scontrol resume job_id

除了以上"停止"和"恢复"任务外,还有一种不可逆的取消任务:

$scancel job_id

对于需要同时取消多个任务的,可以如下操作:

$scancel job_id1,job_id2,job_id3

还有一种比较实用的命令,在常见的文章中并没有介绍,这就是sstat,通过此命令可以很轻松的把任务相关的信息获取到,包括CPU使用率、节点信息、任务信息等。

$sstat --jobs=job_id

以上就是使用slurm做任务管理时常用的几个命令。

你可能感兴趣的:(slurm)