记录服务器下踩过的坑

某人终于给借到了一台服务器,配置4张V100,华丽到吓到我了,搞到今天我的M4000不开心不工作了。

记录服务器下踩过的坑_第1张图片

对于服务器一窍不通的我开始摸索,而且跟之前那个服务器也不同,没有进来就有图形界面,有些迷茫。

如何搭建环境?如何安装编译器软件?如何传递文件?是否可以远程控制?

————

开始搭建环境:

管理老师没有给wangfei2开通权限,故目前先在wangfei1上进行。

windows环境下安装MobaXterm,打开后按sessions接入服务器,接着可以直接拉拽导入所需文件。这个软件对于处理服务器下的文件非常好用,强推!

1.安装Anaconda

拉入Anaconda安装包(隔壁偷来的 嘘),通过命令bash Anacon...sh,一路yes,安装成功。

未能成功打开,需修改环境变量。

vim ~/.bashrc

在最后一行加入,export PATH=“/home/wangfei1/anaconda3/bin:$PATH”,然后更新配置文件source ~/.bashrc,即可。

创建并激活环境

conda create -n py27 python=2.7

conda activate py27

3.安装cuda和cudnn

本课题使用的是tensorflow1.2+python2.7,因此对应的cuda版本为8.0,cudnn版本为5.1。首先到官网下载相应文件(这里之前下载过了拷进去就行)

具体安装参考此教程:https://blog.csdn.net/daydayjump/article/details/88604364

记录服务器下踩过的坑_第2张图片

至此就安装成功cuda并且成功连接啦~

4.安装tensorflow1.2

pip install tensorflow-gpu==1.2.0 -i https://pypi.douban.com/simple/

等待安装成功,python进去import tensorflow无报错,至此环境搭建成功。

 

————开始服务器上运行代码啦!

【校园网非常不稳定,日常掉线,烦得不行。改天试试用更稳定的网络看看(宿舍网接网线)。】拷入数据集&代码&调整tensorflow内部库。

解压数据集用这行代码

cat 20bn-jester-v1-?? | tar zx

1.验证S3D部分

网络模型生成没有问题,导入模型也没有问题,但是无法进行验证,估计是数据集路径存在问题。

A:通过查看目录内文件夹数目发现数目有出错,可能当时解压没有解压完全。应该有的数字是148092.

做16个样本的测试,没有问题。所以问题出在验证集上对应不上。

记录服务器下踩过的坑_第3张图片

但是重复解压过几次了都不行,很奇怪。

——原来是因为辣鸡校园网总是断开,所以部分压缩包并没有传输完全,确保压缩包是完整的就ok了~

 

2.偶尔遇到OOM情况

:是因为别人同样在用服务器啦(还是三卡一起跑的)

通过nvidia-smi 查看gpu使用情况,查看哪个进程使用内存多。通过PID查询使用的用户。

ps -f -p (PID) 即可看到UID

 

3.后台运行程序

nohup python Train_s3d.py >> /home/wangfei1/Double/output &

查看进程jobs -l可以看到已经在运行了

运行日志在Double文件夹下output,输出日志log为20200716-1

可以愉快地后台跑程序啦~边写论文边跑结果,舒服了。(如果能多个gpu来跑就好了 可惜我keras版本太低了)

你可能感兴趣的:(记录服务器下踩过的坑)