深度学习装机详细教程-ubuntu16.04下安装cuda9.0+nvidia-384+cudnn7.1.4+tensorflow1.9。
检测cudnn是否安装成功
anaconda下载地址
安装anaconda
卸载anaconda
主要参考这个
0 为了避免意外 先重装了ubuntu
1 换源
sudo gedit /etc/apt/sources.list
deb http://mirrors.aliyun.com/ubuntu/ xenial main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial main
deb http://mirrors.aliyun.com/ubuntu/ xenial-updates main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-updates main
deb http://mirrors.aliyun.com/ubuntu/ xenial universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial universe
deb http://mirrors.aliyun.com/ubuntu/ xenial-updates universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-updates universe
deb http://mirrors.aliyun.com/ubuntu/ xenial-security main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-security main
deb http://mirrors.aliyun.com/ubuntu/ xenial-security universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-security universe
sudo apt-get update
2 系统设置 软件更新 设备的专有驱动勾上 附加驱动 nvida-384 之后重启
3 nvida-smi 可以看到信息
可以用 lspci | grep -i nvidia 查看gpu信息
可以用 uname -m && cat /etc/*release 检查自己的linux是否支持cuda
检查是否安装了gcc gcc --version
没有安装的话 sudo apt-get install build-essential 一般都安装了
4 之后把 cuda_9.0.176_384.81_linux.run 文件放到home目录下
禁用nouveau驱动 lsmod | grep nouveau 一般是没有输出的
5 按Alt + ctrl +F1进入命令行界面
输入自己的用户名以及密码
一顿操作++
ls /dev/nvidia* 查看有/dev/nvidia-uvm 就是安装成功了
6 设置环境变量
sudo gedit /etc/profile
末尾添加两行
export PATH=/usr/local/cuda-9.0/binKaTeX parse error: Expected '}', got 'EOF' at end of input: {PATH:+:{PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
这里面是cuda-9.0 注意如果不是cuda-9.0需要改一下
之后重启 sudo reboot
检查是否成功 cat /proc/driver/nvidia/version 和 nvcc -V 基本都能成功
测试一下 cd NVIDIA_CUDA-9.0_Samples 之后 make
然后 cd NVIDIA_CUDA-9.0_Samples/bin/x86_64/linux/release 然后 ./deviceQuery 若Result = PASS成功
之后再输入 ./bandwidthTest 若Result = PASS成功
7 然后安装cudnn
注意下载的是 cudnn-9.0-linux-x64-v7.1.solitairetheme8 需要把后缀改成tgz
解压,解压完成之后就是一个cuda的文件夹
进入cuda文件夹,include文件夹 执行 sudo cp cudnn.h /usr/local/cuda/include/
之后进入 cuda/lib64文件夹 执行
sudo cp lib* /usr/local/cuda/lib64/ 复制动态链接库
删除原有的动态文件
cd /usr/local/cuda/lib64/
sudo rm -rf libcudnn.so libcudnn.so.7
生成软连接 这两个在哪一个目录下执行?不知道,我就先在/lib64目录下执行了
sudo ln -s libcudnn.so.7.0.5 libcudnn.so.7
sudo ln -s libcudnn.so.7 libcudnn.so
将路径/usr/local/cuda/lib64 添加到动态库
sudo gedit /etc/ld.so.conf.d/cuda.conf 在里面输入 /usr/local/cuda/lib64
终端下输入指令 sudo ldconfig 使生效
使用 sudo ldconfig -v 查看是否连接成功
cd /usr/local/cuda/lib64 使用看是否安装成功 nvcc -V
还有一种测试cudnn是否安装成功的方法
下载三个文件
cuDNN Runtime Library for Ubuntu16.04 (Deb)
cuDNN Develpoper Library for Ubuntu16.04 (Deb)
cuDNN Code Samples and User Guide for Ubuntu16.04 (Deb)
然后分别 sudo dpkg -i + 文件名(Deb)
然后
cp -r /usr/src/cudnn_samples_v7/ /home/djq/
cd /home/djq/cudnn_samples_v7/mnistCUDNN
make clean && make
./mnistCUDNN
查看cuda和cudnn版本
cat /usr/local/cuda/version.txt
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
8 看一下此时python的版本
cd /usr/bin/ ls python×
此时 python python2 python2.7 python3 python3.5 python3.5m python3m
9 安装Anaconda
bash Anaconda3-2020.02-Linux-x86_64.sh
ENTER+一路回车+yes+yes 就好了
之后输入 which python 查看python路径
10 新建虚拟环境?
conda create --name voxelnet-pytorch-041 python=3.6
激活环境
conda activate voxelnet-pytorch-041
换源 注意源文件在这里 .condarc 和 .bashrc 在一个目录那里,也是 Ctrl+h 查看
channels:
一些指令
查看所有虚拟环境 conda info --envs
还原默认源 conda config --remove-key channels
使用事项
pip安装whl文件 和win下一样 直接pip install + whl文件就可以了
11 安装torch
网站 https://download.pytorch.org/whl/cu90/torch_stable.html
安装 加上清华源超级快
pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install TensorBoardX==1.4 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install Pillow -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install Boost -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install Cython -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install OpenCV-python -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install easydict -i https://pypi.tuna.tsinghua.edu.cn/simple
更新pip 也加上清华源超级快
python -m pip install -U pip -i https://pypi.tuna.tsinghua.edu.cn/simple
12 下载代码
https://github.com/Hqss/VoxelNet_PyTorch
github很慢,使用码云
13 然后
(1) cd VoxelNet_PyTorch/
(2) 编译Cython模块
python utils/setup.py build_ext --inplace
(3) 编译evaluation代码
cd eval/KITTI
g++ -I path/to/boost/include -o evaluate_object_3d_offline evaluate_object_3d_offline.cpp
(4) 给evaluation脚本赋予执行权限
cd eval/KITTI
chmod +x launch_test.sh
继续,然后显存gg了,CUDA error out of memory
1 遇到问题:
fatal error: boost/numeric/ublas/matrix.hpp: No such file or directory
解决办法:
sudo apt-get update
sudo apt-get install libboost-all-dev
其他指令
1.查看剩余空间 df -h