PyTorch 分布式训练和启动脚本torch.distributed.launch torchrun slurm
1、DataParallel如果当前有4个GPU,batch_size=16,那么模型将被复制到每一个GPU上,在前向传播时,每一个gpu将分到4个batch,每个gpu独立计算依据分到的batch计算出结果的梯度,然后将梯度返回到第一个GPU上,第一个GPU再进行梯度融合、模型更新。在下一次前向传播的时候,将更新后的模型再复制给每一个GPU。1、DP在每个训练批次(batch)中,因为模型的权重