conda换源安装torch+vscode分布式训练调试

conda换源安装torch(linux系统+anaconda)

1、找到.condarc文件
2、替换为一下内容:

channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud


3、conda info 命令查看目前使用的源
4、通过nvidia-smi查看自己电脑支持的cuda最高版本
5、conda search pytorch 查看目前可用conda 安装的pytorch版本,注意不仅查看版本号,还要看后面的release版本
6、安装pytorch GPU版本:conda install pytorch=1.12.1=gpu_cuda113py38h19ae3d8_1
7、以上方案可以直接在虚拟环境执行,不需要自己单独安装cuda与cudnn,但是还需要安装torchvision,同样conda search torchvision之后按照后面的release版本查看和自己cuda(113)相符合的版本,执行安装:conda install torchvision=0.13.1=py38_cu113
8、大工告成,这是目前尝试过最简单的安装方法。
9、以往我们安装的时候只注意版本号,比如1.12.1这些,但是一个版本号可能对应很多个release版本,直接安装往往不匹配,因此后面需要把release版本加上做一个限制。

vscode分布式训练调试

单卡训练往往好调试,那么多卡怎们办呢?很简单,在launch.json中修改:

{
    // Use IntelliSense to learn about possible attributes.
    // Hover to view descriptions of existing attributes.
    // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
    "version": "0.2.0",
    "configurations": [
        {
            "name": "Python: 当前文件",
            "type": "python",
            "request": "launch",
            "program": "/home/{你自己的用户名}/.conda/envs/{虚拟环境名称}/lib/python3.7/site-packages/torch/distributed/launch.py",
            "console": "integratedTerminal",
            "args": [
                "--nproc_per_node=1",
                "fixmatch.py",
            ],
            "env": {"CUDA_VISIBLE_DEVICES":"0"},
        }
    ]
}

总的来说就是找到你目前虚拟环境中launch.py位置替换program以及将你执行的主文件替换fixmatch.py。

你可能感兴趣的:(conda,vscode,分布式)