Pytorch问题处理:Pytorch distributed RuntimeError: Address already in use

Pytorch报错如下:

Pytorch distributed RuntimeError: Address already in use

原因:

模型多卡训练时端口被占用,换个端口就好了。

解决方案:

在运行命令前加上一个参数 --master_port 如:

 --master_port 29501

后面的参数 29501 可以设置成其他任意端口

注意:

这个参数要加载 XXX.py前面 例如:

CUDA_VISIBLE_DEVICES=2,7 python3 -m torch.distributed.run /
--nproc_per_node 2  --master_port 29501  train.py 

你可能感兴趣的:(Pytorch,pytorch,人工智能,python)