slurm节点,分区,作业信息说明

节点状态查看

命令:

sinfo

slurm节点,分区,作业信息说明_第1张图片
说明:

PARRITION:节点所在分区
AVAIL:分区状态,up 标识可用,down 标识不可用
TIMELIMIT:程序运行最大时长,infinite 表示不限制,如果限制格式为 days-houres:minutes:seconds
NODES:节点数
NODELIST:节点名列表
STATE:节点状态,可能的状态包括:

allocated、alloc :已分配
completing、comp:完成中
down:宕机
drained、drain:已失去活力
fail:失效
idle:空闲
mixed:混合,节点在运行作业,但有些空闲 CPU 核,可接受新作业
reserved、resv:资源预留
unknown、unk:未知原因
如果状态带有后缀 *,表示节点没有响应

节点信息查看

命令:

scontrol show node

slurm节点,分区,作业信息说明_第2张图片
说明:

NodeName	节点名称
Arch	系统架构
CoresPerSocket	 
CPUAlloc	分配给的 CPU 核数
CPUErr	出错的 CPU 核数
CPUTot	总的 CPU 核数
CPULoad	CPU 负载
AvailableFeatures	可用特性
ActiveFeatures	激活的特性
Gres	通用资源
NodeAddr	节点 IP 地址
NodeHostName	节点名
Version	SLURM 版本
OS	操作系统
RealMemory	实际的物理内存,单位 GB
AllocMem	已分配的内存,单位 GB
FreeMem	可用内存,单位 GB
Sockets	 
Boards	主板数
State	节点状态
ThreadsPerCore	CPU 线程数
TmpDisk	临时硬盘存储大小
Weight	权重
Owner	 
MCS_label	 
Partitions	 
BootTime	开机实际
SlurmdStartTime	SLURM 守护进程启动时间
CfgTRES	 
AllocTRES	 
CapWatts	 
CurrentWatts	 
LowestJoules	 
ConsumedJoules	 
ExtSensorsJoules	 
ExtSensorsWatts	 
ExtSensorsTemp	 
Reason	 

节点状态值

可能的状态包括:

allocated(alloc), completing(comp), down(down), drained(drain), draining(drng), fail(fail), failing(failg), future(futr), idle(idle), maint(maint), mixed(mix), perfctrs(npc), power_down(pow_dn), power_up(pow_up), reserved, and unknown(unk)。

请注意,后缀 “*” 标识当前未响应的节点。

idle   表示节点处于空闲状态

alloc  表示节点所有 CPU 都被占用,新提交的作业将排队。

drain 出现这个状态时,不影响正在运行的作业,但是不接受新的作业调度,可以使用命令 sinfo –R 打印节点不正常的状态产生原因

节点状态值.png
mix  节点具有分配 CPU 的作业,而其他的 CPU 状态是 IDLE,新提交的作业继续运行

unk  Slurm 控制器刚刚启动,节点的状态尚未确定。

down 故障节点不可用。

分区信息查看

命令:

show partition

slurm节点,分区,作业信息说明_第3张图片
说明:

DisableRootJobs: 不允许 root 提交作业
Maxtime:最大运行时间
LLN:是否按最小负载节点调度
Maxnodes:最大节点数
Hidden:是否为隐藏分区
Default:是否为默认分区
OverSubscribe:是否允许超时
ExclusiveUser:排除的用户

作业信息查看

命令:

squeue

在这里插入图片描述
说明:

JOBID:作业号
PARITION:分区名
NAME:作业名
USER:用户名
ST:状态,常见的状态包括:

PD、Q:排队中 ,PENDING
R:运行中 ,RUNNING
CA:已取消,CANCELLED
CG:完成中,COMPLETIONG
F:已失败,FAILED
TO:超时,TIMEOUT
NF:节点失效,NODE FAILURE
CD:已完成,COMPLETED

你可能感兴趣的:(分布式架构,slurm)