对于入门深度学习的新手来说,配置环境是件让人头疼的事情,今天总结一下Linux服务器配置环境的流程。
这个之前博客有写过,见下面链接
Linux无root无sudo权限在用户目录安装cuda9.2和cudnn7.1
# install
conda create -n myenv python=3.5 anaconda
# activate env
conda activate myenv
# 可能需要配置~/.bashrc
细节可以参考下面的博文
安装anaconda
下面在激活的myenv中安装各种包
conda install opencv
conda install pytorch torchvision cudatoolkit=9.0 -c pytorch
最新的PyTorch已经支持了Tensorflow的Tensorboard,不过我还是在用Pytorch1.0,所以可视化用的是TensorboardX。
conda install tensorflow-gpu
pip install tensorboardX
(1)Python代码
from tensorboardX import SummaryWriter
# 在当前目录生成log文件夹,里面保存可视化的文件
writer = SummaryWriter('log')
# 每条命令是一张曲线图,三个参数分别是曲线名,纵坐标,横坐标
writer.add_scalar('train/loc_loss', loss_l.item(), epoch*epoch_size+iteration)
writer.add_scalar('train/conf_loss', loss_c.item(), epoch*epoch_size+iteration)
writer.add_scalar('train/total_loss', loss.item(), epoch * epoch_size + iteration)
(2)可视化
登陆服务器
连接ssh时,将服务器的6006
端口重定向到自己机器上来:
ssh -L 16006:127.0.0.1:6006 username@remote_server_ip
其中:16006:127.0.0.1
代表自己机器上的16006
号端口,6006
是服务器上tensorboard使用的端口。
启动tfboard
在服务器上使用6006
端口正常启动tensorboard:
tensorboard --logdir=./log --port=6006
本地浏览器查看
在本地浏览器中输入地址:
127.0.0.1:16006
scp (-r) 本地用户名@IP地址:文件名1 远程用户名@IP地址:文件名2
[本地用户名@IP地址:] 可以不输入,可能需要输入远程用户名所对应的密码.
# 把服务器的文件file迁移到本地
scp -r [email protected]:/mnt/home/hhh/file ./
一般习惯把数据统一存放在服务区~/data 目录,然后如果用到对应的数据,比如coco,在对应的文件夹里面创建软链接。
# 创建软链接
# ln -s [源文件或目录] [目标文件或目录]
ln -s ~/data/coco data
# 删除软链接 注意不要./coco/,这样会把根目录下的数据删掉
rm -rf ./coco
jupyter入门教程(上)
jupyter入门教程(下)
远程访问jupyter notebook
让jupyter运行于指定的conda虚拟环境
(1)screen让你服务器程序后台运行
(2)nohup后台运行+保存日志
nohup train.py >train.log 2>&1 &
linux简单方便的命令集锦之统计与增删
linux简单方便的命令集锦之查看磁盘空间与文件大小及数量
vim简单方便的命令集锦
1.cuda和cudnn
直接复制,修改bashrc
文件
2.conda
新环境安装conda
复制旧conda文件,然后conda create -n BBB --clone ~/path
即可创建新的env BBB。
其中BBB是新建的conda env,~/path
是旧环境的路径,如 ~/anaconda/env/det/