集群的使用

1.查看内存

df -h

2.cuda 加载 用模型的方式

model load cuda91/tookit/...

3.切换节点

ssh node0n
nvidia-smi 看当前可使用的显卡数量

4.分屏 切换

tmux 激活
ctrl b 然后"/% 分屏 注意加shift
ctrl b 然后空格 切换布局
ctrl b 然后 o 切换
ctrl b 然后 x 关闭

5.程序后台执行

nohup python3 train.py &
输出定向到日志文件中
nohup python3 train.py > ./cat_dog_logfile.txt &

6.任务提交,以及系统资源查看

sbatch train.sh
squeue 查看任务排队
scancl jodid 取消任务

你可能感兴趣的:(集群的使用)