RuntimeError: NCCL error in:XXX,unhandled system error, NCCL version 2.7.8

项目场景:

 分布式训练中遇到这个问题,

RuntimeError: NCCL error in:XXX,unhandled system error, NCCL version 2.7.8_第1张图片


 

问题描述

大概是没有启动并行运算???(


解决方案:

(1)首先看一下服务器GPU相关信息 进入pytorch终端(Terminal) 输入代码查看

python
torch.cuda.is_available()#查看cuda是否可用;
torch.cuda.device_count()#查看gpu数量;
torch.cuda.get_device_name(0)#查看gpu名字,设备索引默认从0开始;
torch.cuda.current_device()#返回当前设备索引;

Ctrl+Z退出
(2)cd进入要运行文件的上层文件夹

 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 python -m torch.distributed.launch --nproc_per_node=6 #启动并行运算

加上要运行的文件以及相关配置

 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 python -m torch.distributed.launch --nproc_per_node=6  src_nq/create_examples.py --vocab_file ./bert-base-uncased-vocab.txt \--input_pattern "./natural_questions/v1.0/train/nq-train-*.jsonl.gz" \--output_dir ./natural_questions/nq_0.03/\--do_lower_case \--num_threads 24 --include_unknowns 0.03 --max_seq_length 512 --doc_stride 128

问题解决

你可能感兴趣的:(#,Pytorch编写中遇到的问题,深度学习,pytorch,python,机器学习,开发语言)