centos tensorflow GPU安装过程全记录

下载准备文件

下载显卡驱动,runfile格式的cuda安装文件,cudnn文件,注意三者版本号要和tensorflow支持的相对应。这里用cuda-8和cudnn-6,tensorflow1.4.1

检查系统环境

  1. 更新系统
    sudo yum update
  2. 检查是否电脑配置有Nvidia显卡
/usr/sbin/lspci | grep -i nvidia
  1. 检查是否有nvidia驱动
nvidia-smi

如果显示没有命令,则nvidia显卡没有正常安装。

  1. 关闭开源驱动
  • 打开/lib/modprobe.d/dist-blacklist.conf,将nvidiafb注释掉,最后加上然后添加以下语句:
#blacklist nvidiafb
blacklist nouveau 
options nouveau modeset=0
  • 重建initramfs image,备份initramfs-$(uname -r).img,运行dracut需要花费几分钟的时间。
   mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
   dracut /boot/initramfs-$(uname -r).img $(uname -r)
  1. 关闭X服务,进行安装
    两种方式,一种在主机上用组合键:
    Ctrl+Alt+F2 进入纯命令模式;
    另一种用命令:
systemctl set-default multi-user.target 
#安装完后要恢复
systemctl set-default graphical.target

关闭重启后可以通过ssh方式或文本命令访问主机

查看nouveau是否被禁用
lsmod | grep nouveau
后面如果没有内容说明nouveau被禁用
先获取root权限
sudo init 3 注意空格
rm /tmp/.X* 
上面的命令是删掉X的锁文件 

进入到上述驱动所在的文件夹

切换至安装包文件夹  
sh NVIDIA-Linux-x86_64-xxx.run   #根据提示安装  
sh cuda_8.0.xx_xxxx_linux.run   #根据提示安装  

注意驱动和cuda的安装顺序,先安装驱动的话,安装cuda时x-configtion选择N

  1. 配置环境变量
gedit ~/.bashrc   
#写入bashrc文件保存  
#gpu driver  
export CUDA_HOME=/usr/local/cuda-8.0  
export PATH=/usr/local/cuda-8.0/bin:$PATH  
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH  
export LD_LIBRARY_PATH="/usr/local/cuda-8.0/lib:${LD_LIBRARY_PATH}" 
实现以下,然后再检查以下驱动信息
source ~/.bashrc  
nvidia-smi 

用 nvcc -V 命令验证安装结果

安装cudnn

安装cudnn:
$ tar -xvzf cudnn-8.0-linux-x64-v6.0.tgz
$ cp -P cuda/include/cudnn.h /usr/local/cuda-8.0/include
$ cp -P cuda/lib64/libcudnn* /usr/local/cuda-8.0/lib64
$ chmod a+r /usr/local/cuda-8.0/include/cudnn.h /usr/local/cuda-8.0/lib64/libcudnn*

安装tensorflow(anaconda)

  • 下载anaconda安装
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.0.1-Linux-x86_64.sh
  • 安装是注意最后添加环境变量
  • 创建python环境安装,进行安装
conda create -n tensorflow python=3.5
source activate tensorflow
conda install ipython
conda install jupyter
安装tensorflow GPU版本
pip install tensorflow-gpu -i https://pypi.doubanio.com/simple/

验证安装程序

import tensorflow as tf

hello = tf.constant('Hello, TensorFlow!')
sess = tf.Session()
sess.run(hello)

from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())

运行后检测到GPU信息说明安装成功。

常见问题

  1. “ImportError: libcublas.so.8.0: cannot open shared object file: No such file or directory”
  • 先确认版本是否匹配,不匹配的话,用以下命令安装对应版本tensorflow
pip uninstall tensorflow-gpu
pip install tensorflow-gpu==1.2
  • 排除版本问题,重新扫描可共享的动态链
sudo ldconfig -v
  • 确认环境变量确实已经修改
echo $PATH
echo $LD_LIBRARY_PATH

你可能感兴趣的:(centos tensorflow GPU安装过程全记录)