利用多重映射从本地查看集群的tensorboard

训练过程的可视化对实验的成功是非常重要的,tensorboard工具强大,能够提供很好的可视化数据分析。

由于本实验室集群上没有可视化端口,从本地查看集群任务的tensorboard着实有点费劲,下面说一下查看教程。

思路:

         可以将集群的tensorboard端口(一般是6006)映射到本地端口。

情况介绍:

         实验室集群分为计算节点cu01,cu02,cu03和网络节点mu01,在计算节点是没有网络的。所以在映射的时候计算节点的端口是不能直接映射到本地的,只能通过mu01映射到本地,也就是说要有二级映射才能解决问题。

 

利用多重映射从本地查看集群的tensorboard_第1张图片

方法: 

1.本地到MU01:

 在Git Bash(没有的话可以下载)运行 MU01到本地的映射并登陆自己的集群账号:

                                                           ssh -L 8008:127.0.0.1:8008 [email protected]

上面这一句可以写在一个tb.bat文件里,当打开Git Bash的时候找到tb.bat文件(建议放在C盘的User本目录下,因为打开Git Bash时就直接在C:/User下了),然后运行: ./tb.bat, 当然你可以写成一个tb.sh 文件,放在任意位置,直接双击该tb.sh文件就可以运行此程序。另外要十分注意的是端口号可以自己选择,官方默认6006,但是集群的tensorboard端口会有很多人用,所以6006可能会已被占用,所以你要自己再找一个端口,在这里我用的是8008,所以8008,我已经用了,大家再选其他端口吧。另外,Git Bash指针对Windows,如果是Linux可以直接在终端中运行。

 

2.CU01到MU01:

经过上一步你已经进入集群了,这个时候是在MU01下面,你要将CU01的端口映射到MU01,只需要运行下面代码:

                                                                           ssh -L 8008:127.0.0.1:8008 cu01

3.运行tensorboard指令:

由于我的tensorboard是在PyTorch环境里面,所以我要运行source activate pytorch激活环境后,然后再运行tensorboard指令:

                                                  tensorboard --logdir=/home/FENGsl/J/Log/OCT --port=8008

注意后面的--port要写你选择的端口。

这个时候打开本地的浏览器,直接输入http://localhost:8008就可以看到了。

你可能感兴趣的:(深度学习)