多机多卡训练

yolov5多机多卡训练,参考:https://blog.csdn.net/hymn1993/article/details/124124803
例如一共用两个机器,一个机器ip是"192.168.1.1"作为主机器,两一个ip不用管,只要和主机器保持连通即可。
On master machine 0

$ python -m torch.distributed.launch --nproc_per_node 4 --nnodes 2 --node_rank 0 --master_addr "192.168.1.1" --master_port 1234 train.py

On machine 1

$ python -m torch.distributed.launch --nproc_per_node 4 --nnodes 2 --node_rank 1 --master_addr "192.168.1.1" --master_port 1234 train.py

nccl报错,需要配置一下环境。

你可能感兴趣的:(深度学习,人工智能)