目录
1. 情况说明
2.具体实现措施,举例说明
(1) 准备工作
(2)具体实施
3. debug 调试
我的情况是通过pycharm连接云端服务器,然后实现代码的pytorch分布式训练(DDP),虽然跑训练代码直接在云端的终端下就可以执行,但是我想看一下训练过程中的细节,这就需要在pycharm上debug来更清晰的查看。
注: 这是通过ssh远程连接的云端服务器。怎么连接的大家应该都大同小异。
首先,直接在云端服务器的终端下执行训练代码如下所示
所需的环境变量设置:
(siamban1) root@aaa:~/data/zjx/siamBAN/siamban_ori/experiments/siamban_r50_l234# export PYTHONPATH=../../
(siamban1) root@aaa:~/data/zjx/siamBAN/siamban_ori/experiments/siamban_r50_l234# CUDA_VISIBLE_DEVICES=0,1,2
执行训练:
root@aaa:~/data/zjx/siamBAN/siamban_ori/experiments/siamban_r50_l234# python -m torch.distributed.launch
--nproc_per_node=3
../../tools/train.py
--cfg config.yaml
可以看到,这里有很多传入的参数,并且涉及到pytorch的分布式训练,需要在launch中启动,如果直接在本地的pycharm上运行 train.py 是行不通的。其一是因为这些传入的参数以及环境变量需要设置,其二pytorch的分布式训练是在launch中启动的。
所以,以上的环境变量和传入的参数就相当于需要准备的东西,
所有的设置都是在pycharm 的 Run下面的Edit configrations中实现的,如下图所示:
首先,环境变量的设置需要在 训练代码文件中设置,比如我的训练代码文件名为 train.py,那么环境变量(对比(1)准备工作)的都在train中添加,如下面所示,注意如果需要添加导入模块路径的环境变量(如(1)中 PYTHONPATH),则路径应为云端服务器中该模块的路径,而不是本地的,最好写绝对路径。
接下来需要设置传入的参数,由于我这个情况是 分布式训练,从launch启动,所以需要找到launch.py文件,在这个文件中设置传入的参数
它的路径在 torch\distributed\launch.py,如果找不到,可以直接pycharm右上角搜索
注意这里的launch.py此时是本地C盘下的,需要做一下映射关系,把它map到对应云端服务器的lauch.py文件。这样需要先找到云端服务器环境下的launch.py文件,它在torch/distirbuted 文件夹下,可以在云端服务器利用下面语句终端里先搜索
root@aaa:~/anaconda3/envs/siamban1# find / -name launch.py
/root/anaconda3/envs/siamban/lib/python3.7/site-packages/setuptools/launch.py
/root/anaconda3/envs/siamban1/lib/python3.7/site-packages/setuptools/launch.py
/root/anaconda3/envs/siamban1/lib/python3.7/site-packages/torch/distributed/launch.py
/root/anaconda3/lib/python3.6/site-packages/anaconda_navigator/utils/launch.py
/root/anaconda3/lib/python3.6/site-packages/navigator_updater/utils/launch.py
/root/anaconda3/lib/python3.6/site-packages/setuptools/launch.py
/root/anaconda3/pkgs/anaconda-navigator-1.8.7-py36_0/lib/python3.6/site-packages/anaconda_navigator/utils/launch.py
/root/anaconda3/pkgs/navigator-updater-0.2.1-py36_0/lib/python3.6/site-packages/navigator_updater/utils/launch.py
/root/anaconda3/pkgs/setuptools-39.1.0-py36_0/lib/python3.6/site-packages/setuptools/launch.py
/root/anaconda3/pkgs/setuptools-62.3.3-py37h89c1867_0/lib/python3.7/site-packages/setuptools/launch.py
然后 ctrl+c 退出,选择你对应的环境中的launch.py文件(选择torch/distirbuted文件夹下的),比如我的是
/root/anaconda3/envs/siamban1/lib/python3.7/site-packages/torch/distributed/launch.py
然后回到pycharm,点击 Run 中的 Edit Configration,选中launch文件,在Path mapping那一栏填写对应的路径
其中 Local path填本地的launch.py路径,Remote path 填上述寻找到的云端的launch.py路径
做完映射关系后,在 Parameters填入传入的参数,如下所示
具体传入的参数就是之前那个执行代码需要的(见(1)中),除了
python -m torch.distributed.launch
外,其它参数都需要添加进来, 设计到路径的最好都用绝对路径代替,避免出错。
上面的设置完成后,直接运行launch.py 即可,而不是去运行train.py,不过这没关系,把断点打在train.py或者训练过程中的任何地方依然没什么问题。