最近一个项目需要在TITAN RTX 2080Ti 上安装Ubuntu18.04+Nvidia-430显卡驱动+Cuda10.1+Cudnn+7.6+Anaconda3+深度学习环境(tensorflow1.14.0+keras2.2.4+torch1.1.0),这里记录安装的对应版本和运行过程中的坑。
主要分为两部分:
1. 下载安装包
首先去这个网站上下载cuda 10.1 安装包 http://developer.nvidia.com/cuda-downloads
选择linux->x86_64->Ubuntu->18.04->run file(local),注意最好选择run file类型,下载的文件后缀为.run 别的类型可能装起来会出问题。
上图中提供的安装说明中,第一句是下载命令,第二句是安装命令,如果只需要下载安装包,而需要在另外一台新机子上安装,只需第一句即可。
2. 安装cuda
进入下载的cuda文件存放目录下,打开终端,输入图中第二句话:
sudo sh cuda_10.1.243_418.87.00_linux.run
安装。 这里 sudo sh xxx ,xxx为你自己cuda包的名称
调用sudo权限输入密码后,出现一篇用户协议,一直点击回车将该部分读完,最后根据提示输入accept接受协议。
由于之前已经安装了Nvidia的显卡驱动,这里不再需要安装。CUDA Samples 为安装测试用例,可安装也可不安装。最后用箭头键上下选中Install选项,回车安装。
3. 安装完成
安装完成后显示下图:
注意,虽然提示说驱动版本不匹配,但只是warning,不是说装的是错的,不管它。
4. 添加环境变量
在终端输入以下命令,打开./bashrc文件:
gedit ~./bashrc
在文件末尾添加:
export PATH="/usr/local/cuda-10.1/bin:$PATH"
export LD_LIBRARY_PATH="/usr/lcoal/cuda-10.1/lib64:$LD_LIBRARY_PATH"
保存文件,在终端输入以下命令使文件生效:
source ~/.bashrc
5. 检验环境是否设置好
打开终端,输入nvcc -V,出现版本信息则设置好
(若提示nvcc未安装,按照命令提示进行了nvcc的安装,sudo apt install nvidia-cuda-toolkit)
1. 下载安装包
去网站上下载cudnn7.6 : https://developer.nvidia.com/rdp/cudnn-download
会下载一个tgz压缩包,将压缩包解压
注意cudnn的版本严格依赖于cuda,在下载之前最好去查一下与cuda版本对应的cudnn有哪些版本。
2. 解压复制
在解压后的文件夹里,会有一个cuda的文件夹,里边包含include头文件和lib64库文件,需要把头文件与库文件分别拷贝到前一步安装的cuda路径中,本机的cuda安装路径为/usr/local/cuda,利用命令进行拷贝:
进入该文件夹,打开终端,输入:
#cp是copy指令
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
chmod命令用于改变linux系统文件或目录的访问权限。
#a :所有的用户及群组。r :读权限。所以a+r表示所有用户都只有可读权限
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
复制过去后,已经完成cudnn库的安装
1. 下载安装包
anaconda3的下载链接为 https://repo.continuum.io/archive/
根据需要下载对应的版本:Linux-x86_64.sh
2. 安装
下载完成后得到一个安装包。进入anaconda3安装包的存放目录,打开终端,输入命令:
bash Anaconda3-5.3.1-Linux-x86_64.sh
安装首先出现一篇用户协议,看完协议后会有提示,在有提示的地方输入yes,最后统一协议后询问安装路径,按enter键同意进入安装,安装完成后询问是否添加环境变量,输入yes(注意这里最好选择yes,同意添加环境变量,不然后边要手动去加)。
3. 安装成功
anaconda3安装成功后,使用conda命令,若不能正常使用,提示未找到命令,解决办法是将手动将路径加到环境中去:
终端输入:
sudo gedit ~/.bashrc
在最后一行加上:
export PATH=~/anaconda3/bin:$PATH
修改完保存,在终端输入生效命令:
source ~/.bashrc
4. 创建虚拟环境
Anoconda本身具有一个base环境,可直接激活使用:
conda activate base
需要安装深度学习环境的可在base下安装需要的包
也可单独创建新的虚拟环境:
conda create -n your_env_name python=X.X(3.7、3.6等),
(该句话的意思是:anaconda 命令创建python版本为X.X、名字为your_env_name的虚拟环境。your_env_name文件可以在Anaconda安装目录envs文件下找到)
激活环境:conda activate env_name
退出环境: conda deactivate env_name
主要基于pip和conda安装命令,因此其余的包的安装同理。
假设我们在base环境下配置深度学习环境:
首先激活base环境:
conda activate base
1. 安装tensorflow
既然配置了cuda和cudnn,这里肯定是要安装gpu版本:
pip install tensorflow-gpu
上边一句命令默认安装最新版本的tensorflow,如果需要指定版本,只需在后边加上版本号:
pip install tensorflow-gpu==1.14.0
如果下载速度较慢,可考虑加上镜像源:
pip install -i http://pypi.tuna.tsinghua.edu.cn/simple --upgrade tensorflow-gpu==1.14.0
其中-i后边的网址为镜像源,可提高下载速度,国内的镜像源有:
清华镜像:https://pypi.tuna.tsinghua.edu.cn/simple
阿里云:http://mirrors.aliyun.com/pypi/simple/
中国科技大学:https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学:http://pypi.hustunique.com/
山东理工大学:http://pypi.sdutlinux.org/
豆瓣:http://pypi.douban.com/simple/
2. 安装keras
安装原理同 tensorflow
指定版本安装:
pip install keras==2.2.4
3. 安装pytorch
指定版本安装:
pip install torch==1.1.0
打开终端,激活base环境
conda activate base
在终端打开python,依次输入:
python
import tensorflow
import keras
import torch
不报错的话则说明安转成功,可以使用。