slurm超算系统中用户使用常用命令

在Slurm超算系统中,用户可以使用以下常用的命令来管理自己的作业和资源。

  1. sbatch: 提交作业
#!/bin/bash
#SBATCH -J myjob               # 作业名称
#SBATCH -o myjob.%j.out        # 标准输出文件名
#SBATCH -e myjob.%j.err        # 标准错误输出文件名
#SBATCH -N 1                   # 节点数
#SBATCH -n 1                   # 进程数
#SBATCH -p partition_name      # 指定分区
#SBATCH -t 01:00:00            # 预估运行时间

# 作业内容
echo "Hello, World!"

  1. squeue: 查看作业队列
$ squeue -u username   # 查看某个用户的作业队列
$ squeue -t pending    # 查看所有待运行的作业
$ squeue -t running    # 查看所有运行中的作业
  1. sinfo: 查看集群状态
$ sinfo   # 查看集群所有分区的状态
$ sinfo -p partition_name   # 查看指定分区的状态
$ sinfo -N   # 查看所有节点的状态
  1. scancel: 取消作业
$ scancel job_id   # 根据作业ID取消作业
$ scancel -u username   # 取消某个用户的所有作业
  1. scontrol: 对作业和节点进行控制
$ scontrol show jobs job_id   # 查看作业的详细信息
$ scontrol show node hostname   # 查看节点的详细信息
$ scontrol update job_id   # 更新作业的相关参数,比如修改作业的优先级

以上是Slurm超算系统中一些常用的命令和实例脚本。请注意,具体命令和参数可能会因为不同的Slurm版本和配置而有所变化,请参考相关文档或者向系统管理员咨询。

你可能感兴趣的:(linux,运维,服务器,slurm,作业提交)