Code测试(6):总结测试新code可能遇到的问题

上次服务器跑 code是二个月之前了,这次跑程序,配环境配了一下午,装了卸,卸了装,在之前各种笔记中徘徊,这次做一个总结,以减少之后的落坑时间(还没调好,心累 = = 菜如狗):

Step 1:

首先,我们简要的查看一下系统当前状态,这里是PC端预备(一):GPU信息查看,其实就是:nvidia-smi,来看看有没有人在跑程序,占了哪些卡。接着,需要查看查询cuda 版本:nvcc -V 

如果系统内存占用过多,可服务器安装(七):占用GPU内存过多,通过du -lh --max-depth=1 查看当前目录下一级子文件和子目录占用的磁盘容量 conda  clean  -p 删除没有用的包,conda clean -t ;conda clean -y -all 依次进行清除 = =

如果需要源 PC端预备(一):源查找、删除、添加,可分别添加,移除:conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/  ||||and ||| conda config --remove-key channels

Step 2:

为code配置特定环境服务器系列(一):多版本Python(Anaconda管理)首先查看已有conda: conda --version,再查看python的环境:conda info -envs,如果需要添加新环境:conda create --name python27 python=2.7,这时候可以再次确认python新环境:conda info -envs 以及当前的python版本:python --version,如果确认使用该环境,通过 conda activate python27即可激活。为了防止系统内存占用过多,使用完毕后可以对envs环境进行移除:conda remove --name python27 --all。

此外,还可以通过conda list查看所有的packages,如果对特定的包进行移除和升级,采用 conda install numpy==1.10;conda remove numpy;conda update numpy;如果想更新conda这种,可以用:conda update conda。如果想全部更新,可以用:conda update --all

接着,需要 服务器安装(二):conda安装tensorflow和conda常用命令 ,具体地,通过 conda search tensorflow-gpu 查看各个版本,之后利用 conda/pip install tensorflow-gpu==1.x.x,如果需要更新,可以根据conda update xxx or conda remove xxx进行更新或者移除。

有时候,如果系统有点小笨,可能要特别地指定安装路径,即使用pip install 命令时指定安装路径,实际操作为:pip install --target=/home/mdd/anaconda3/envs/python37/lib/python3.7/site-packages torch torchvision,可参考 服务器安装(二):指定文件位置安装pytorch

此外,有时候系统可能会报错:服务器系列(一):ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory ,这是因为tensorflow等框架与CUDA版本不匹配,需要对应的下载匹配版本:【查看cudnn版本】https://blog.csdn.net/baidu_32936911/article/details/79774289 【tensorflow与cuda对应关系】https://tensorflow.google.cn/install/source。如果想更换cuda版本,参考服务器安装(六):cuda 2nd来配置新conda。

查看python:which python 查看tensorflow版本:pip show tensorflow-gpu

之后,这里还需要服务器系列(一):vim .bashrc进入vim编辑界面之后如何退出来改变环境变量,可能用到的是vim ~/.bashrc进入,Esc + :+ wq退出并保存修改之后的文件,source ~/.bashrc更新 .bashrc。其他的,:q!  若曾修改过档案,又不想储存,使用 ! 为强制离开不储存档案。:q    离开 vi (常用)等等。

%--------------------------------祝我好运吧------------------------毕业加油------------------------

作为菜鸟不停配环境 下torch多次失败 import torch都不行

报错:from torch._C import * ImportError: DLL load failed: 找不到指定的模块。

解决办法:

torch 无法使用(torch 0.4.0,python3.6.8, cuda9.0, cudnn7.3.1)

使用命令conda install numpy pyyaml mkl cmake cffi

参考自:from torch._C import * ImportError: DLL load failed: 找不到指定的模块。

你可能感兴趣的:(Code测试(6):总结测试新code可能遇到的问题)