slurm集群执行作业出现RuntimeError: No CUDA GPUs are available、CUDA_LAUNCH_BLOCKING=1等问题。
问题描述当我写好脚本sh文件后用sbatch执行后发现,总是会报RuntimeError:NoCUDAGPUsareavailable。找了找办法,在main.py代码里加了两句:print(torch.cuda.device_count())print(torch.cuda.is_available())结果:0False用squeue-l查看当前进程状态,发现其已经在计算节点comput8上,