Install Cuda(rpm方式)
- 检查是否有兼容cuda的GPU
lspci | grep -i nvidi
从这个网站http://developer.nvidia.com 查看你的显卡是否兼容cuda
- 检查你的系统版本
uname -m && cat /etc/*release
根据系统版本和位数,选择cuda toolkit的版本 http://developer.nvidia.com/cuda-downloads
注意tensorflow目前的最新版(r1.4只支持到cuda8.0)
- 检查有无安装gcc
gcc --version
# if not installed
yum install -y gcc
- 检查系统是否安装了对应系统内核版本的Headers & Development包
sudo yum install kernel-devel-$(uname -r) kernel-headers-$(uname -r)
假如提示没有对应的包,则上https://rpm.pbone.net/查找对应的包下载到本地进行安装
注意:这两个包的版本一定要和系统内核版本一致,不一致则删除已有版本重新安装
- 通过rpm包安装cuda
如前文所说通过http://developer.nvidia.com/cuda-downloads下载centos 7 64 位cuda 8.0的rpm包
# 添加yum的包储存库EPEL,满足DKMS和libvdpau等包的依赖关系
sudo yum install epel-release
# 安装储存库的元数据
sudo rpm --install rpm_name.rpm
# 清除yum储存库的缓存
sudo yum clean expire-cache
# 安装cuda
sudo yum install cuda
```6. 添加环境变量
```bash
export PATH=/usr/local/cuda-8.0/bin\${PATH:+:\/${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
```7. 检查安装是否成功
```bash
# 检查driver版本
cat /proc/driver/nvidia/version
# 运行cuda自带样例deviceQuery
sudo find / -name "deviceQuery"
# 进入deviceQuery的路径
cd deviceQuery_path && make
# 运行样例deviceQuery
chmod +x ./deviceQuery && ./deviceQuery
安装新Nvidia driver
因为我的显卡是1080 ti,cuda安装里自带的驱动版本太低,导致显卡不能被nvidia-smi指令正确识别和使用,所以需要安装最新版的驱动,假如驱动安装正确的话,则无需更新驱动
- 从官网http://www.nvidia.com/Download/index.aspx下载新的驱动
- 关闭显卡自带驱动nouveau
# 把驱动加入黑名单中
vi /etc/modprobe.d/blacklist.conf
# 在文件末尾添加
blacklist nouveau
options nouveau modeset=0
# 使用 dracut重新建立initramfs image file
# 备份 the initramfs file
sudo mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
# 重新建立 the initramfs file
sudo dracut -v /boot/initramfs-$(uname -r).img $(uname -r)
# 重启系统至文本模式 init 3
# 检查nouveau driver确保没有被加载
lsmod | grep nouveau
# 假如没有任何输出内容,则表明显卡自带驱动nouveau已被正确关闭
```3. 安装nvidia 显卡的新驱动
```bash
chmod +x driver_name.run && ./driver_name.run
```4. 检查显卡版本
```bash
cat /proc/driver/nvidia/version
添加cudnn
- 从官网https://developer.nvidia.com/cudnn下载cudnn压缩包。tensorflow目前版本(r1.4)使用的是cudnn6,所以下载的是cuDNN v6.0 (April 27, 2017), for CUDA 8.0。 实际安装中请根据自己需求选择所需要下载的版本
- 下载后,解压cudnn压缩包
tar -xzvf cudnn-8.0-linux-x64-v6.tgz - 添加文件到cuda工具箱的目录中
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
```## 安装tensorflow-gpu
关于python or anaconda的安装在这里就不细写,网上一堆教程。
1. 从该网站https://pypi.python.org/pypi/tensorflow-gpu下载自己所需的tensorflow-gpu的whl包
2. 安装&测试
```bash
pip install tensorflow_gpu-1.4.1-cp36-cp36m-manylinux1_x86_64.whl
ipython3
>>> import tensorflow
# 若import的指令没有报错,表明tensorflow-gpu安装成功,并且可以识别到cuda,cudnn的路径和文件
以上是jojen的笔记。
我大概记了一下我们踩的坑:
cuda版本
jojen在第一次下载cuda版本的时候,没有注意兼容性的问题,下载了cuda8,但是cuda8目前的tf版本并不支持,所以...first round, over
根据tf的版本,cuda8会在下一个tf版本中被支持。
内核+glibc等系统问题
关于内核,两位大神给了我两种不同的建议,一位大神建议我的是拿到系统以后先进行upgrade,另一位大神则认为内核这种东西,够用就行了,没必要追求最新。
最后我们选择后者,因为更新内核以后,驱动就和内核型号不匹配了...重新下载和内核匹配的驱动以后,glibc的版本又不匹配了....
最后只能重装大法好...