卸载cuda驱动:
方法1:在命令行中输入
sudo apt-get remove cuda*
sudo apt-get remove --purge cuda*
sudo apt-get update
然后在目录切换到/usr/local/下
cd /usr/local/
sudo rm -r cuda*
方法2:
sudo /usr/local/cuda-8.0/bin/uninstall_cuda-8.0.pl
卸载NVIDIA driver:
方法1:
sudo apt-get install autoremove --purge nvidia*
方法2:
sudo /usr/bin/nvidia-uninstall
共分三步:安装驱动,安装cuda,安装cudnn
一、安装驱动
二中会自动安装driver,装完后版本:
| NVIDIA-SMI 440.33.01 Driver Version: 440.33.01 CUDA Version: 10.2 |
参考:https://caltong.com/158
注意:最新的tensorflow1.13.1只能匹配10.0的cuda和对应的cudnn,不能匹配10.1的cuda及cudnn。故只能安装415版本的驱动,对应10.0的cuda,430不行。
sudo apt-get install nvidia-driver-415
安装完成记得重启,否则输入nvidia-smi时报错:
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
二、安装cuda
参考:https://blog.csdn.net/weixin_40859436/article/details/83152249 的cuda和cudnn部分
cuda各版本地址:https://developer.nvidia.com/cuda-toolkit-archive
下载的安装包名为cuda-repo-ubuntu1804-10-2-local-10.2.89-440.33.01_1.0-1_amd64.deb(已保存)
使用如下四条指令安装cuda(见官网安装包下面的安装指导上的命令)
sudo dpkg -i cuda-repo-ubuntu1804-10-2-local-10.2.89-440.33.01_1.0-1_amd64.deb
sudo apt-key add /var/cuda-repo-
sudo apt-get update
sudo apt-get install cuda
但是我在输入第一行指令的时候,就提示错误提示我先运行第二条指令,所以指令的顺序就变成了(pub结尾的这个不知道记得对不对,总之直接把提示的指令输入终端就没错啦)
sudo apt-key add /var/cuda-repo-10-0-local-10.0.130-410.48/7fa2af80.pub (此处与参考网址略有不同,按terminal提示来)
sudo dpkg -i cuda-repo-ubuntu1804-10-0-local-10.0.130-410.48_1.0-1_amd64.deb
sudo apt-get update
sudo apt-get install cuda
注意:安装cuda涉及一个系统内核版本问题,虽然这次很顺利
官方说明中有版本匹配:
https://developer.download.nvidia.cn/compute/cuda/10.2/Prod/docs/sidebar/CUDA_Installation_Guide_Linux.pdf
查看系统内核版本:uname -r
为5.3.0-42-generic,比它大很多,但是也没出问题,如果出问题了可能涉及降内核版本的问题
三、安装cudnn
参考:https://blog.csdn.net/weixin_40859436/article/details/83152249
由于已经注册,微信扫码、邮箱登录cudnn官网
选对应cuda10.2的版本,下图中第一个cuDNN Library for Linux
下载的安装包名:cudnn-10.2-linux-x64-v7.6.5.32.tgz(已保存)
下载完解压文件,运行以下指令把解压后相应的文件拷贝到对应的CUDA目录下即可(要cd到含cudnn文件的目录下)
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
注:因为只是cudnn安装方式是将库文件放置再cuda目录下,所以版本万一不对也不要慌,可以重新删除再安装新的版本。
接下来编辑一个path环境变量文档:
sudo gedit ~/.bashrc
将cuda的环境变量加到打开的文件最后
export LD_LIBRARY_PATH=”$LD_LIBRARY_PATH:/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64”
export CUDA_HOME=/usr/local/cuda
export PATH="$CUDA_HOME/bin:$PATH"
完成后重启,否则nvidia-smi提示版本不匹配
这时Driver Version自己改成410了
四、安装gpu版tensorflow
参考安装tensorflow:https://mp.csdn.net/postedit/88959567
sudo pip3 install tensorflow-gpu -i https://pypi.douban.com/simple
然后导入tensorflow,报”不是符号连接"的错误:
导入tensorflow成功:
安装版本不匹配时需要卸载cuda重新安装,本人卸载时卸不干净,二次安装总报错,所以重装系统再装。
马上可以跑个程序验证一下子了,开心2019.05.13