2018年8月6日更新说明:距上次安装成功没多久,显卡驱动莫名失效,没有解决,索性重装了系统,考虑到还会用到Tensorflow,所以本次按照cuda9.0 + cudnn7的配置安装。原打算用anaconda来进行python编程的,但是这会影响到ROS的使用,所以暂时放弃,决定使用pycharm编程。
首先需要感谢如下博客:
https://blog.csdn.net/yhaolpz/article/details/71375762(opencv、caffe安装等参考)
https://blog.csdn.net/a_z666666/article/details/72853346(opencv、caffe安装等参考)
https://blog.csdn.net/ghw15221836342/article/details/79571559 (GPU安装参考)
https://www.cnblogs.com/5211314jackrose/p/7081020.html (GPU安装参考)
https://blog.csdn.net/babytang008/article/details/78631776 (anaconda配置参考)
https://blog.csdn.net/balixiaxuetian/article/details/79154013 (opencv3.4.1参考)
鼓捣了一天,参照网上各路大神的教程,终于安装好了,为了自己也为了他人,特此记录下来。
(因为很多都是转载,所以排版很乱)
安装硬件:Intel i7 + NVIDIA GTX 970(单显卡)
安装流程细分为如下12个步骤:
1、安装依赖包
2、禁用 nouveau
3、配置环境变量
4、安装显卡驱动
5、安装 CUDA 9.0
6、验证 CUDA 9.0是否安装成功
7、安装 cudnn
8、安装 opencv3.4.1
9、安装 caffe
10、安装 pycaffe notebook 接口环境
11、MNIST数据集测试
12、Nvidia显卡驱动、cuda、cudnn重新安装
安装后续步骤或环境必需的依赖包,依次输入以下命令:
sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler
sudo apt-get install --no-install-recommends libboost-all-dev
sudo apt-get install libopenblas-dev liblapack-dev libatlas-base-dev
sudo apt-get install libgflags-dev libgoogle-glog-dev liblmdb-dev
sudo apt-get install git cmake build-essential
有一定几率安装失败而导致后续步骤出现问题,所以要确保以上依赖包都已安装成功,验证方法就是重新运行安装命令,如验证 git cmake build-essential是否安装成功,则再次运行以下命令,成功的话会提示已安装:
sudo apt-get install git cmake build-essential
安装好依赖包后需要禁用 nouveau,只有在禁用掉 nouveau 后才能顺利安装 NVIDIA 显卡驱动,禁用方法就是在 /etc/modprobe.d/blacklist-nouveau.conf 文件中添加一条禁用命令,首先需要打开该文件,通过以下命令打开:
sudo gedit /etc/modprobe.d/blacklist-nouveau.conf
打开后发现该文件中没有任何内容,写入:
blacklist nouveau
options nouveau modeset=0
保存时命令窗口可能会出现以下提示:
** (gedit:4243): WARNING **: Set document metadata failed: 不支持设置属性 metadata::gedit-position
无视此提示~,保存后关闭文件,注意此时还需执行以下命令使禁用 nouveau 真正生效:
sudo update-initramfs -u
电脑重启之后执行
lsmod | grep nouveau #没有输出,即说明安装成功
同样使用 gedit 命令打开配置文件:
sudo gedit ~/.bashrc
打开后在文件最后加入以下两行内容:
export LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH
export LD_LIBRARY_PATH=/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH
保存退出。
source ~/.bashrc
cuda中本身包含显卡驱动,但是我试着装了一下cuda9.0,会报错:“The driver installation is unable to locate the kernel source....”,为了解决这个问题特地去查找“怎么降低Ubuntu16.04的内核版本”,我的系统默认的是4.13.45,而cuda文档里要求是4.4.0版本,试了半天没解决降版本的问题,索性就不试了,先单独安装显卡驱动了。
手动去官网下载.run文件自己安装
下载完成之后:
卸载原先的所有驱动:
sudo chmod +x *.run
sudo ./NVIDIA-Linux-x86_64-390.59.run --uninstall
禁用nouveau(前面已做)
Ctrl-Alt+F1 之后输入用户名和密码登录即可。Ctrl-Alt+F7 退出命令行界面
sudo service lightdm stop(关闭图形界面,此时Ctrl-Alt+F7无法返回界面,除非 sudo service lightdm stop)
sudo chmod a+x NVIDIA-Linux-x86_64-390.59.run
sudo ./NVIDIA-Linux-x86_64-390.59.run –no-opengl-files
安装显卡驱动时,就一路Accept就可以,报错The distribution-provided pre-install script failed!,不必理会,继续安装。最重要的一步,安装程序问你是否使用NVIDIA的xconfig文件,如果是独显,这里一点要选yes,否则在启动x-window时不会使用nv驱动。
安装提示基本是选肯定的,提示nvidia-xconfig时如果你的电脑还存在一个核显或者集显就选择不安装,选择no,反之选择安装yes。
安装完毕后,重启
reboot (重启)
重启,进入图形界面,并不会出现循环登录的问题
如果已经存在,执行nvidia-smi,有类似如下输出代表nvidia驱动正常
nvidia-smi
进入 https://developer.nvidia.com/cuda-downloads ,依次选择 CUDA 类型然后下载即可。
上面下载的1.6G的 CUDA中包含有 nvidia 显卡驱动,故此步骤 CUDA 的安装包括了 nvidia 显卡驱动的安装,此时注意你是否已经安装过 nvidia 显卡驱动,若无法保证已安装的 nvidia 显卡驱动一定正确,那就卸载掉之前安装的 nvidia 显卡驱动(卸载方法链接),然后开始安装 CUDA 9.0;若可以保证已安装正确的 nvidia 显卡驱动,则直接开始安装 CUDA 9.0,在安装过程中选择不再安装 nvidia 显卡驱动。
为了方便开始安装过程的路径查找,把下载的 CUDA 安装文件移动到 HOME 路径下,然后通过 Ctrl + Alt + F1 进入文本模式,输入帐号密码登录,通过 Ctrl + Alt + F7 可返回图形化模式,在文本模式登录后首先关闭桌面服务:
sudo service lightdm stop
然后通过 Ctrl + Alt + F7 发现已无法成功返回图形化模式,说明桌面服务已成功关闭,注意此步对接下来的 nvidia 驱动安装尤为重要,必需确保桌面服务已关闭。
cd到
.run
文件所处的路径下,
安装cuda
sudo chmod +x cuda_9.0.176_384.81_linux.run
sudo sh cuda_9.0.176_384.81_linux.run --tmpdir=/tmp
其中 cuda_9.0.176_384.81_linux.run 是我的 CUDA 安装文件名,而你需替换为自己的 CUDA 安装文件名,若此时忘记可直接通过 ls 文件查看文件名,这也是我建议把 CUDA 安装文件移动到 HOME 下的另一个原因。
按q结束cuda的描述等,然后输入accept,然后是提示是否安装NVIDIA驱动,如果你做了第5步,就输入n,下一个提示是是否安装CUDA Toolkit,输入y,后面的提示都是使用默认或者y了,安装完会显示哪些安装成功,哪些安装失败,一般都会没有问题的
按照步骤安装,第一个就是问你是否安装显卡驱动,由于前一步已经安装了显卡驱动,所以这里就不需要了,况且 runfile 自带的驱动版本不是最新的。
Do you accept the previously read EULA?
accept/decline/quit: accept
Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 361.62?
(y)es/(n)o/(q)uit: n
Install the CUDA 8.0 Toolkit?
(y)es/(n)o/(q)uit: y
Enter Toolkit Location
[ default is /usr/local/cuda-8.0 ]:
Do you want to install a symbolic link at /usr/local/cuda?
(y)es/(n)o/(q)uit: y
Install the CUDA 8.0 Samples?
(y)es/(n)o/(q)uit: y
Enter CUDA Samples Location
[ default is /home/zhou ]:
Installing the CUDA Toolkit in /usr/local/cuda-8.0 …
Missing recommended library: libGLU.so
Missing recommended library: libX11.so
Missing recommended library: libXi.so
Missing recommended library: libXmu.so
Installing the CUDA Samples in /home/zhou …
Copying samples to /home/zhou/NVIDIA_CUDA-8.0_Samples now…
Finished copying samples.
===========
= Summary =
===========
Driver: Not Selected
Toolkit: Installed in /usr/local/cuda-8.0
Samples: Installed in /home/xtu, but missing recommended libraries
Please make sure that
- PATH includes /usr/local/cuda-8.0/bin
- LD_LIBRARY_PATH includes /usr/local/cuda-8.0/lib64, or, add /usr/local/cuda-8.0/lib64 to /etc/ld.so.conf and run ldconfig as root
To uninstall the CUDA Toolkit, run the uninstall script in /usr/local/cuda-8.0/bin
Please see CUDA_Installation_Guide_Linux.pdf in /usr/local/cuda-8.0/doc/pdf for detailed information on setting up CUDA.
***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 361.00 is required for CUDA 8.0 functionality to work.
To install the driver using this installer, run the following command, replacing with the name of this run file:
sudo .run -silent -driver
Logfile is /tmp/cuda_install_18572.log
剩下的选择则都输入“y”确认安装或确认默认路径安装,开始安装,此时若出现安装失败提示则可能为未关闭桌面服务或在已安装 nvidia 驱动的情况下重复再次安装 nvidia 驱动,安装完成后输入重启命令重启:
reboot
重启后登录进入系统,配置 CUDA 环境变量,与第3步相同,使用 gedit 命令打开配置文件:
sudo gedit ~/.bashrc
在该文件最后加入以下两行并保存:https://docs.nvidia.com/cuda/archive/9.0/cuda-installation-guide-linux/index.html
export PATH=/usr/local/cuda-9.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
使该配置生效:
source ~/.bashrc
分别执行以下命令:
cd /usr/local/cuda-9.0/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery
若看到类似以下信息则说明 cuda 已安装成功:
登录官网:https://developer.nvidia.com/rdp/cudnn-download ,下载对应 cuda 版本且 linux 系统的 cudnn 压缩包,注意官网下载 cudnn 需要注册帐号并登录
下载完成后可能是solitairetheme8格式,先按下面的命令解压(不一定需要),
cp cudnn-8.0-linux-x64-v5.1.solitairetheme8 cudnn-8.0-linux-x64-v5.1.tgz
tar -xvf cudnn-8.0-linux-x64-v5.1.tgz
V5
得到一个 cuda 文件夹,该文件夹下include 和 lib64 两个文件夹,cd命令行进入 cudn/include 路径下,然后进行以下操作:
cd cuda
sudo cp lib64/lib* /usr/local/cuda/lib64/ #复制动态链接库
sudo cp include/cudnn.h /usr/local/cuda/include/
cd /usr/local/cuda/lib64/
sudo rm -rf libcudnn.so libcudnn.so.5 #删除原有动态文件
sudo ln -s libcudnn.so.5.1.10 libcudnn.so.5 #生成软衔接
sudo ln -s libcudnn.so.5 libcudnn.so #生成软链接
V7
参考《Ubuntu 16.04+CUDA 9.1+cuDNN v7+OpenCV 3.4.0+Caffe+PyCharm 完全安装指南,国内最全!(适用CUDA 9.0)》
libcudnn.so.7.。。。。后面的版本号根据实际情况修改
cd ~/cuda/include
sudo cp cudnn.h /usr/local/cuda/include/ #复制头文件
然后命令行进入 cudn/lib64 文件夹路径下,运行以下命令(CUDA 9.0也是一样的命令):
cd ~/cuda/lib64
sudo cp lib* /usr/local/cuda/lib64/ #复制动态链接库
cd /usr/local/cuda/lib64/
sudo rm -rf libcudnn.so libcudnn.so.7 #删除原有动态文件
sudo ln -s libcudnn.so.7.0.5 libcudnn.so.7 #生成软衔接
sudo ln -s libcudnn.so.7 libcudnn.so #生成软链接
然后需要将路径/usr/local/cuda/lib64 添加到动态库,分两步:
1)安装vim。输入:
sudo apt-get install vim-gtk
2)输入:
sudo vim /etc/ld.so.conf.d/cuda.conf
键盘按i进入编辑状态,添加文字:
/usr/local/cuda/lib64
然后按esc,输入:(注意有冒号)
:wq #保存退出
终端下接着输入 sudo ldconfig 命令使链接生效。
软链接后可以用sudo ldconfig -v 命令查看是否链接成功:是否有/usr/local/cuda/lib64文件夹。ldconfig命令的用途主要是在默认搜寻目录/lib和/usr/lib以及动态库配置文件/etc/ld.so.conf内所列的目录下,搜索出可共享的动态链接库(格式如lib*.so*),进而创建出动态装入程序(ld.so)所需的连接和缓存文件。
安装完成后可用 nvcc -V 命令验证是否安装成功,若出现以下信息则表示安装成功:
yhao@yhao-X550VB:~$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2016 NVIDIA Corporation
Built on Tue_Jan_10_13:22:03_CST_2017
Cuda compilation tools, release 8.0, V8.0.61
进入官网 : http://opencv.org/releases.html , 选择 3.4.1 版本的 sources , 下载 opencv-3.4.1.zip 。随后解压到你要安装的位置,命令行进入已解压的文件夹 opencv-3.4.1 目录下,执行:
mkdir build # 创建编译的文件目录
cd build
cmake -D CMAKE_BUILD_TYPE=Release -D CMAKE_INSTALL_PREFIX=/usr/local ..
make -j8 #编译
安装过程中会遇到ippicv不好下载的问题,所以事先下载好放在opencv/.cache中(ctrl + h显示)
下载地址为 :https://pan.baidu.com/s/15H2WHlibFIfOh1LPRT89gw 密码:p93s
在98%的时候会等很久很久,属于正常现象。编译过程很顺利,编译成功后安装:
sudo make install #安装
安装完成后通过查看 opencv 版本验证是否安装成功:
pkg-config --modversion opencv
卸载OpenCV的方法:进入OpenCV解压文件夹中的buid 文件夹:
cd /home/ccem/opencv-3.4.0/build
运行:
sudo make uninstall
然后把整个opencv-3.4.0文件夹都删掉。随后再运行:
sudo rm -r /usr/local/include/opencv2 /usr/local/include/opencv /usr/include/opencv /usr/include/opencv2 /usr/local/share/opencv /usr/local/share/OpenCV /usr/share/opencv /usr/share/OpenCV /usr/local/bin/opencv* /usr/local/lib/libopencv
把一些残余的动态链接文件和空文件夹删掉。有些文件夹已经被删掉了所以会找不到路径。
首先在你要安装的路径下 clone :
git clone https://github.com/BVLC/caffe.git
如果下载网速慢,可以先下载zip文件,再解压。进入 caffe ,将 Makefile.config.example 文件复制一份并更名为 Makefile.config ,也可以在 caffe 目录下直接调用以下命令完成复制操作 :
sudo cp Makefile.config.example Makefile.config
复制一份的原因是编译 caffe 时需要的是 Makefile.config 文件,而Makefile.config.example 只是caffe 给出的配置文件例子,不能用来编译 caffe。
然后修改 Makefile.config 文件,在 caffe 目录下打开该文件:
sudo gedit Makefile.config
修改 Makefile.config 文件内容:
1.应用 cudnn
将
#USE_CUDNN := 1
修改成:
USE_CUDNN := 1
2.应用 opencv 版本
将
#OPENCV_VERSION := 3
修改为:
OPENCV_VERSION := 3
3.使用 python 接口
将
#WITH_PYTHON_LAYER := 1
修改为
WITH_PYTHON_LAYER := 1
4.修改 python 路径
INCLUDE_DIRS := $(PYTHON_INCLUDE) /usr/local/include
LIBRARY_DIRS := $(PYTHON_LIB) /usr/local/lib /usr/lib
修改为:
INCLUDE_DIRS := $(PYTHON_INCLUDE) /usr/local/include /usr/include/hdf5/serial
LIBRARY_DIRS := $(PYTHON_LIB) /usr/local/lib /usr/lib /usr/lib/x86_64-linux-gnu /usr/lib/x86_64-linux-gnu/hdf5/serial
然后修改 caffe 目录下的 Makefile 文件:
将:
NVCCFLAGS +=-ccbin=$(CXX) -Xcompiler-fPIC $(COMMON_FLAGS)
替换为:
NVCCFLAGS += -D_FORCE_INLINES -ccbin=$(CXX) -Xcompiler -fPIC $(COMMON_FLAGS)
将:
LIBRARIES += glog gflags protobuf boost_system boost_filesystem m hdf5_hl hdf5
改为:
LIBRARIES += glog gflags protobuf boost_system boost_filesystem m hdf5_serial_hl hdf5_serial
然后修改 /usr/local/cuda/include/host_config.h 文件 :(9.0没有)
将
#error-- unsupported GNU version! gcc versions later than 4.9 are not supported!
改为
//#error-- unsupported GNU version! gcc versions later than 4.9 are not supported!
OK ,可以开始编译了,在 caffe 目录下执行 :
make all -j8
这是如果之前的配置或安装出错,那么编译就会出现各种各样的问题,所以前面的步骤一定要细心。
本次安装是我在这儿犯了一个低级错误,在修改Makefile的时候,不知道的怎么回事(我猜测是鼠标乱跳导致的),多输入了个c,导致编译时一直报错,还找不到解决办法,后来认真核对了一边才发现。
编译成功后可运行测试:
sudo make runtest -j8
我在这儿出现了一个问题:error while loading sharedlibraries: libcudart.so.8.0: cannot open shared object file: No such file ordirectory
http://www.knowsky.com/965884.html ,这是因为没cuda的lib路径没添加上,终端写入命令:
sudo ldconfig /usr/local/cuda/lib64
重新编译即可。
如果显示结果为上图所示,则表示 caffe 已经成功安装。
在上一步成功安装 caffe 之后,就可以通过 caffe 去做训练数据集或者预测各种相关的事了,只不过需要在命令行下通过 caffe 命令进行操作,而这一步 pycaffe 的安装以及 notebook 环境配置只是为了更方便的去使用 caffe ,实际上大多数都是通过 python 来操作 caffe 的,而 notebook 使用浏览器作为界面,可以更方便的编写和执行 python 代码。
首先编译 pycaffe :
cd caffe
sudo make pycaffe -j8
以下是我编译 pycaffe 时出现的错误:
python/caffe/_caffe.cpp:10:31: fatal error: numpy/arrayobject.h: 没有那个文件或目录
解决方法:
sudo apt-get install python-numpy
此外也可能是由于 Makefile.config 文件中 python 路径设置错误出现的错误,可根据上一步检查一下,也可能出现别的错误,百度谷歌之~
编译 pycaffe 成功后,将路径加入到环境变量中
sudo echo export PYTHONPATH="~/caffe/python" >> ~/.bashrc (路径根据实际情况设置)
source ~/.bashrc
验证一下是否可以在 python 中导入 caffe 包,首先进入 python 环境:
python
然后导入 caffe :
>>> import caffe
若不报错则表示 caffe 的 python 接口已正确编译,但是应该不会那么顺利,以下是我导入 caffe 时出现的错误:
ImportError: No module named skimage.io
解决方法:
pip install -U scikit-image #若没有安装pip: sudo apt install python-pip
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package
注意,simple
不能少, 是 https
而不是 http
修改 ~/.config/pip/pip.conf
(Linux), %APPDATA%\pip\pip.ini
(Windows 10) 或 $HOME/Library/Application Support/pip/pip.conf
(macOS) (没有就创建一个,基本上是没有的), 修改 index-url
至tuna,例如
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
pip 和 pip3 并存时,只需修改 ~/.pip/pip.conf
。
Importing caffe results in ImportError: “No module named google.protobuf.internal” (import enum_type_wrapper)
https://stackoverflow.com/questions/37666241/importing-caffe-results-in-importerror-no-module-named-google-protobuf-interna
解决方法:
pip install protobuf
然后,安装python接口依赖库,在caffe根目录的python文件夹下,有一个requirements.txt的清单文件,上面列出了需要的依赖库,按照这个清单安装就可以了。
在安装scipy库的时候,需要fortran编译器(gfortran),如果没有这个编译器就会报错,因此,我们可以先安装一下。
首先进入 caffe/python 目录下,执行安装代码:
sudo apt-get install gfortran
for req in $(cat requirements.txt); do sudo pip install $req; done
安装完成以后执行:
sudo pip install -r requirements.txt
就会看到,安装成功的,都会显示Requirement already satisfied, 没有安装成功的,会继续安装。
安装过程中,会出现如下错误,有可能是由于pip版本低,所以升级pip的版本,利用sudo python -m pip install --upgrade --forcepip 命令
1、Command"python setup.py egg_info" failed with error code 1 in/tmp/pip-build-LxB2Xe/ipython//
2、caffe TypeError:unsupported operand type(s) for -=: 'Retry' and 'int'
解决方法:https://blog.csdn.net/qq_42450724/article/details/80720587
sudo python -m pip install --upgrade --force pip
本次(2018年8月6日)再次遇到这个问题,但是不是用上面的方法解决的,经过认真阅读报错信息,我发现是ipython版本不对导致的,不支持Python2.7,所以按照https://blog.csdn.net/weixin_40539892/article/details/78881110 这个博客中的方法解决的。指定版本【推荐】
sudo pip install ipython==8888 #先指定一个不存在的版本以查看可用版本,发现5版本中有5.5.0(你的可能不一样)
sudo pip install ipython==5.5.0
接下来就可以按照《深度学习服务器环境搭建详细版(Ubuntu16.04+CUDA8+Caffe+Anaconda+TensorFlow+共享)》https://blog.csdn.net/babytang008/article/details/78631776 安装配置 Anaconda2。(与ROS冲突,未使用)
最后一步,安装 jupyter (可选):
sudo pip install jupyter
安装完成后运行 notebook :
jupyter notebook
或
ipython notebook
就会在浏览器中打开notebook, 点击右上角的New-python2, 就可以新建一个网页一样的文件,扩展名为ipynb。在这个网页上,我们就可以像在命令行下面一样运行python代码了。输入代码后,按shift+enter运行,更多的快捷键,可点击上方的help-Keyboard shortcuts查看,或者先按esc退出编辑状态,再按h键查看。
配置caffe完成后,我们可以利用MNIST数据集对caffe进行测试,过程如下:
1.将终端定位到Caffe根目录
cd ~/caffe 根据实际情况
2.下载MNIST数据库并解压缩
./data/mnist/get_mnist.sh
3.将其转换成Lmdb数据库格式
./examples/mnist/create_mnist.sh
4.训练网络
./examples/mnist/train_lenet.sh
训练的时候可以看到损失与精度数值,如下图:
卸载原先的显卡驱动:
验证是否禁用nouveau
lsmod | grep nouveau
ctrl+alt+f1,后
sudo service lightdm stop
sudo ./NVIDIA-Linux-x86_64-384.59.run --uninstall
reboot
重新安装显卡驱动按照上面的步骤
cuda的卸载方法
To uninstall the CUDA Toolkit, run the uninstallation script provided in the bin directory of the toolkit. By default, it is located in /usr/local/cuda-9.0/bin:
sudo /usr/local/cuda-9.0/bin/uninstall_cuda_9.0.pl
卸载之后还有一些残留的文件夹,,可以一并删除
cd /usr/local/
sudo rm -rf cuda-9.0/
cudnn直接删除相应的文件夹即可