服务器上运行跑深度学习代码(一)

文章目录

  • 重现论文里的代码
    • 更新服务器python版本
    • 程序提示torch 找不到CUDA!!!
    • 文件中路径的选择
    • batch size 的设置与程序的运行有关系?

重现论文里的代码

我准备复现的是Point2roof的代码。这是第一次复现论文代码,所以记录一下^ _ ^。

从GitHub找到他的项目point2roof项目。
先把工程down下来 ^ _ ^ 。
看他工程里面提供的README。
服务器上运行跑深度学习代码(一)_第1张图片
这篇里面提到他的数据集,我也顺便下载下来了。目前只是想跑一下代码,好像没必要下载数据集?
接下来按照他说的安装环境。
服务器上运行跑深度学习代码(一)_第2张图片
我这里是先从网上把PyTorch下载到本地,然后通过WinSCP拖到实验室的服务器里面。WinSCP使用过程就不介绍了。

主要是下载时要注意服务器里面的python的版本。
服务器里面已经安装了CUDA驱动和 Anaconda ,我们几个共用一个账号,前面的兄弟已经装起来了,所以我直接用现成的。
他记录的配置环境的博客Linux服务器上配置论文代码环境。


先看服务器上的python版本。
在这里插入图片描述
乌龙了!我之前服务器没没进去,查看的时本地的python版本,所以下载的时3.9版本的。(T_T)。
在这里插入图片描述

PyTorch下载的时候要看CUDA的版本和自己python的版本。

查看CUDA版本命令如下:
在这里插入图片描述

对了CUDA是使用GPU的时候选的版本,如果时使用CPU的话,选CPU的版本就好。下载地址PyTorch下载地址
感觉python版本是不是可以根据

更新服务器python版本

搞错了,这里应该先用conda创建虚拟环境,之后再安装更新python。

conda 创建虚拟环境
服务器上运行跑深度学习代码(一)_第3张图片
先查看一下已经创建的虚拟环境。

conda 创建虚拟环境的命令为:conda create -n your_env_name python=3.9
在这里就可以选择python的版本。

服务器上运行跑深度学习代码(一)_第4张图片

删除配置的虚拟环境:conda env remove --name your_env_name

删除前面测试时配置的虚拟环境pointnet

服务器上运行跑深度学习代码(一)_第5张图片
现在激活我们创建的point2roof虚拟环境。conda activate your_env_name
推出命令是:conda deactivate
在这里插入图片描述

现在开始安装PyTorch (灬ºωº灬)
在这里插入图片描述
先进入自己下载的安装包的路径下。然后使用pip install torch-1.9.1+cu102-cp39-cp39-linux_x86_64.whl 开始安装

安装完成进入python验证一下。
服务器上运行跑深度学习代码(一)_第6张图片
安装成功。

按照README提示的命令运行一下。
服务器上运行跑深度学习代码(一)_第7张图片
然后到有test.py 的路劲下命令行输入:python test.py
按照提示缺什么包就安装什么包。
需要注意的是
安装 yaml这个库pip 里要加py前缀
安装sklearn时使用的时scikit-learn这个包。

在这里插入图片描述
在这里插入图片描述

——>遇到找不到路径的问题时,按照提示修改路劲。

程序提示torch 找不到CUDA!!!

我在外面检查torch时显示找到了CUDA,但是程序开始跑的时候,就找不到CUDA!!!
在这里插入图片描述
看了这篇No CUDA GPUs are available问题解决我在最前面加了

print(torch.cuda.is_available())

服务器上运行跑深度学习代码(一)_第8张图片

不在报这个错误了!!

文件中路径的选择

看清楚服务器中当前程序运行时的路径是什么!!!
我的是在这里
服务器上运行跑深度学习代码(一)_第9张图片

完整的路径应该是“/home/c1316/hqq/point2roof/Point2Roof-master/model_cfg.yaml”
要看vscode打开的路劲,而不是test.py文件所在路径

(感觉理解有点问题!!!!)

test.txt中的路径修改为如下
服务器上运行跑深度学习代码(一)_第10张图片

batch size 的设置与程序的运行有关系?

原始程序batch size设置为1.我运行,就会莫名奇妙奔溃,有时会如下错误报错
在这里插入图片描述
报错如下:
服务器上运行跑深度学习代码(一)_第11张图片
看这篇<测试模型时RuntimeError: >说调整batch size 大小就可以改善。我设置为20 有时能跑,有时又跑不起来,始终跑不完.如下:
在这里插入图片描述
运行到这就奔溃了!!!T_T
值调整为40 程序能跑完,但是结果不太正确!
在这里插入图片描述
边缘精度为nan.
不知道哪里出错了!!

但是这个环境应该是可以了吧!
(batch size 不会影响影响程序的,如果过大会导致资源不够会溢出,过小应该不会又问题!!!)
后面针对这个问题在找一下具体原因。- _ -!!!

你可能感兴趣的:(深度学习,服务器,python)