pycharm连接云端服务器后实现远程debug调试

目录

1. 情况说明

2.具体实现措施,举例说明

(1) 准备工作

(2)具体实施

3. debug 调试


1. 情况说明

我的情况是通过pycharm连接云端服务器,然后实现代码的pytorch分布式训练(DDP),虽然跑训练代码直接在云端的终端下就可以执行,但是我想看一下训练过程中的细节,这就需要在pycharm上debug来更清晰的查看。

注: 这是通过ssh远程连接的云端服务器。怎么连接的大家应该都大同小异。

2.具体实现措施,举例说明

(1) 准备工作

首先,直接在云端服务器的终端下执行训练代码如下所示

所需的环境变量设置:

(siamban1) root@aaa:~/data/zjx/siamBAN/siamban_ori/experiments/siamban_r50_l234# export PYTHONPATH=../../
(siamban1) root@aaa:~/data/zjx/siamBAN/siamban_ori/experiments/siamban_r50_l234# CUDA_VISIBLE_DEVICES=0,1,2

执行训练:

root@aaa:~/data/zjx/siamBAN/siamban_ori/experiments/siamban_r50_l234# python -m torch.distributed.launch     
--nproc_per_node=3     
../../tools/train.py 
--cfg config.yaml

可以看到,这里有很多传入的参数,并且涉及到pytorch的分布式训练,需要在launch中启动,如果直接在本地的pycharm上运行 train.py 是行不通的。其一是因为这些传入的参数以及环境变量需要设置,其二pytorch的分布式训练是在launch中启动的。

所以,以上的环境变量和传入的参数就相当于需要准备的东西,

(2)具体实施

所有的设置都是在pycharm 的 Run下面的Edit configrations中实现的,如下图所示:

pycharm连接云端服务器后实现远程debug调试_第1张图片

 首先,环境变量的设置需要在 训练代码文件中设置,比如我的训练代码文件名为 train.py,那么环境变量(对比(1)准备工作)的都在train中添加,如下面所示,注意如果需要添加导入模块路径的环境变量(如(1)中 PYTHONPATH),则路径应为云端服务器中该模块的路径,而不是本地的,最好写绝对路径。

pycharm连接云端服务器后实现远程debug调试_第2张图片

pycharm连接云端服务器后实现远程debug调试_第3张图片

 接下来需要设置传入的参数,由于我这个情况是 分布式训练,从launch启动,所以需要找到launch.py文件,在这个文件中设置传入的参数

pycharm连接云端服务器后实现远程debug调试_第4张图片

 它的路径在 torch\distributed\launch.py,如果找不到,可以直接pycharm右上角搜索

pycharm连接云端服务器后实现远程debug调试_第5张图片

pycharm连接云端服务器后实现远程debug调试_第6张图片

 注意这里的launch.py此时是本地C盘下的,需要做一下映射关系,把它map到对应云端服务器的lauch.py文件。这样需要先找到云端服务器环境下的launch.py文件,它在torch/distirbuted 文件夹下,可以在云端服务器利用下面语句终端里先搜索

root@aaa:~/anaconda3/envs/siamban1# find / -name launch.py
/root/anaconda3/envs/siamban/lib/python3.7/site-packages/setuptools/launch.py
/root/anaconda3/envs/siamban1/lib/python3.7/site-packages/setuptools/launch.py
/root/anaconda3/envs/siamban1/lib/python3.7/site-packages/torch/distributed/launch.py
/root/anaconda3/lib/python3.6/site-packages/anaconda_navigator/utils/launch.py
/root/anaconda3/lib/python3.6/site-packages/navigator_updater/utils/launch.py
/root/anaconda3/lib/python3.6/site-packages/setuptools/launch.py
/root/anaconda3/pkgs/anaconda-navigator-1.8.7-py36_0/lib/python3.6/site-packages/anaconda_navigator/utils/launch.py
/root/anaconda3/pkgs/navigator-updater-0.2.1-py36_0/lib/python3.6/site-packages/navigator_updater/utils/launch.py
/root/anaconda3/pkgs/setuptools-39.1.0-py36_0/lib/python3.6/site-packages/setuptools/launch.py
/root/anaconda3/pkgs/setuptools-62.3.3-py37h89c1867_0/lib/python3.7/site-packages/setuptools/launch.py

然后 ctrl+c 退出,选择你对应的环境中的launch.py文件(选择torch/distirbuted文件夹下的),比如我的是

/root/anaconda3/envs/siamban1/lib/python3.7/site-packages/torch/distributed/launch.py

然后回到pycharm,点击 Run 中的 Edit Configration,选中launch文件,在Path mapping那一栏填写对应的路径

pycharm连接云端服务器后实现远程debug调试_第7张图片

 其中 Local path填本地的launch.py路径,Remote path 填上述寻找到的云端的launch.py路径

pycharm连接云端服务器后实现远程debug调试_第8张图片

 做完映射关系后,在 Parameters填入传入的参数,如下所示

pycharm连接云端服务器后实现远程debug调试_第9张图片

pycharm连接云端服务器后实现远程debug调试_第10张图片

 具体传入的参数就是之前那个执行代码需要的(见(1)中),除了

python -m torch.distributed.launch

外,其它参数都需要添加进来, 设计到路径的最好都用绝对路径代替,避免出错。

3. debug 调试

上面的设置完成后,直接运行launch.py 即可,而不是去运行train.py,不过这没关系,把断点打在train.py或者训练过程中的任何地方依然没什么问题。

你可能感兴趣的:(pycharm,服务器,python)