pytorch训练时gpu利用率低_pytorch多gpu并行训练

pytorch训练时gpu利用率低_pytorch多gpu并行训练_第1张图片

目录

  • 目录
  • pytorch多gpu并行训练
    • 1.单机多卡并行训练
      • 1.1.torch.nn.DataParallel
      • 1.2.如何平衡DataParallel带来的显存使用不平衡的问题
      • 1.3.torch.nn.parallel.DistributedDataParallel
    • 2.多机多gpu训练
      • 2.1.初始化
        • 2.1.1.初始化backend
        • 2.1.2.初始化init_method
          • 2.1.2.1.使用TCP初始化
          • 2.1.2.2.使用共享文件系统初始化
        • 2.1.3.初始化rank和world_size
        • 2.1.4.初始化中一些需要注意的地方
      • 2.2.数据的处理-DataLoader
      • 2.3.模型的处理
      • 2.4.模型的保存与加载

pytorch多gpu并行训练

注: 以下都在Ubuntu上面进行的调试, 使用的Ubuntu版本包括14, 18LST

参考文档:

data_parallel_tutorial

distributeddataparallel

environment-variable-initialization

PYTORCH 1.0 DISTRIBU

你可能感兴趣的:(pytorch训练时gpu利用率低_pytorch多gpu并行训练)