Paddle分布式训练

本文基于paddleDetection,分布式训练模型

1.单卡训练与多卡训练,命令区别

单卡训练

python tools/train.py -c configs/ppyoloe/ppyoloe_plus_crn_m_80e_coco.yml --eval

多卡训练

python -m paddle.distributed.launch --gpus 0,1,2 tools/train.py -c configs/ppyoloe/ppyoloe_plus_crn_m_80e_coco.yml --eval

 2.环境安装

paddle使用GPU训练模型,需要安装显卡驱动、cuda、cudnn

基于以上环境,需要安装nccl

sudo  dpkg  -i  nccl-local-repo-ubuntu2004-2.8.4-cuda11.2_1.0-1_amd64.deb
sudo apt-get install libnccl2

sudo apt-get install libnccl-dev

3.配置环境变量

export LD_LIBRARY_PATH="/usr/local/cuda-11.2/lib64"
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/lib/x86_64-linux-gnu

4.刷新环境变量

source ~/.bashrc

你可能感兴趣的:(深度学习环境,paddle环境,paddle,分布式,人工智能,深度学习)