Ubuntu16.04+Tensorflow+GPU环境安装

1.jpg

这是之前给同学配置电脑的时候踩过了无数的坑,然后才想到还是总结一下。因为根据写代码做事情遗忘定律,你会在不到一周时间内,忘掉了你当时是如何过五关斩六将的。
本机配置:

  • CPU:i7
  • GPU:1070
  • CUDA:8.0
  • Cudnn:8.0v6.0
  • Tensorflow:1.4

一、 ubuntu环境安装

具体参考:Win7 U盘安装Ubuntu16.04 双系统详细教程

  1. 制作U盘启动盘:做好一个安装双系统的U盘
  2. 安装ubuntu16.04系统:
    插着U盘重启,按F12进入BOOT,选择对应U盘,顺序安装即可。其中需要注意的是那100G怎么分配的问题:
    a. /boot :200MB, EXT4日志文件系统
    b. 交换空间:2048MB,
    c. /:40960MB,EXT4日志文件系统
    d. /home:剩余全部空间,EXT4日志文件系统
    注; 分区设置完毕后,然后在下边的“安装启动引导区的设备”下拉框中选择/boot分区的编号
  3. 创建启动系统引导:安装EasyBCD

二、 Ubuntu16.04安装Tensorflow-gpu**

主要参考:
Ubuntu16.04安装TensorFlow-gpu版本
Ubuntu16.04下安装tensorflow(GPU加速)

  1. 安装对应的显卡驱动,最简单且方便的做法就是在“设置”的“附加驱动”里直接安装nvidia的驱动(需要重启才能更新)。然后我之前用的是自己下载对应版本来安装,比较麻烦,而且后续容易出问题~

  2. 检查驱动:
    终端输入nvidia-smi
    会显示以下图信息:

    检查驱动

  3. gcc降版本
    在终端依次执行:

sudo apt-get install g++-4.9
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-4.9 20
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-5 10
sudo update-alternatives --install /usr/bin/g++ g++/usr /bin/g++-4.9 20
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-5 10
sudo update-alternatives --install /usr/bin/cc cc /usr/bin/gcc 30
sudo update-alternatives --set cc /usr/bin/gcc
sudo update-alternatives --install /usr/bin/c++ c++ /usr/bin/g++ 30
sudo update-alternatives --set c++ /usr/bin/g++
  1. 安装CUDA8.0
    先找到CUDA_8.0资源(注意:官网下载会是最新的9.1版本,不能用,要不然版本不兼容会出很多问题)。然后终端依次输入:
sudo apt-get update
chomd +x cuda_8.0.44_linux.run
sudo su cuda_8.0.44_linux.run --override --silent --toolkit
  1. 安装cudnn 8.0v6.0,注意一定要装6.0的:
    先下载cudnn 8.0v6.0安装包,然后终端依次输入:
sudo cp cudnn-8.0-linux-x64-v6.0.tgz /usr/local/cuda 
cd /usr/local/cuda 
tar -xzvf cudnn-8.0-linux-x64-v6.0.tgz 
sudo cp cuda/include/cudnn.h /usr/local/cuda/include 
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64 
sudo chmod a+r /usr/local/cuda/include/cudnn.h/usr/local/cuda/lib64/libcudnn*
  1. 配置CUDA环境变量
    终端输入:sudo gedit ~/.bashrc
    在打开的编辑器末尾添加:
export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64"
export CUDA_HOME=/usr/local/cuda

然后保存并在终端输入:
source ~/.bahsrc

  1. 建立软链接
    终端输入:
cd/usr/local/cuda/lib64/
sudo rm -rf libcudnn.so libcudnn.so.5
sudo ln -s libcudnn.so.5.1.3 libcudnn.so.5
sudo ln -s libcudnn.so.5 libcudnn.so

设置环境变量:终端输入:sudo gedit /etc/profile
在编辑器末尾加入:

PATH=/usr/local/cuda/bin:$PATH
export PATH

保存后,创建链接文件:
终端输入:sudo vim /etc/ld.so.conf.d/cuda.conf
摁a进入插入模式,增加下面一行:
/usr/local/cuda/lib64
保存退出。最后在终端输入:
sudo ldconfig #使链接生效
注意:这步可能会报以下错误:
/sbin/ldconfig.real: /usr/local/cuda/lib64/libcudnn.so.6 不是符号连接
解决方法,终端输入:sudo ldconfig -v
找到这一行错误:libcudnn.so.6 -> libcudnn.so.6.0.21
是这个链接错误。以根用户(sudo su)在终端输入:ln -sf /usr/local/cuda-8.0/lib64/libcudnn.so.6.0.21 /usr/local/cuda-8.0/lib64/libcudnn.so.6
再执行sudo ldconfig即可

  1. 检查CUDA是否安装好
    切换到CUDA 8.0 Samples默认安装路径(即在NVIDIA_CUDA-8.0_Samples目录下),终端输入:
    sudo make all –j8 #(我的电脑是8核)
    完成后继续向终端输入:
cd bin/x86_64/linux/release
./deviceQuery

如果看到下面画面,则恭喜你,终于成功了:


成功画面
  1. 安装Tensorflow-gpu
  1. 按照教程是:sudo pip3 install tensorflow-gpu
    报错:sudo: pip3:找不到命令
    解决:undo apt-get install python3-pip
    验证pip3是否安装成功:pip3 --version
  2. 输入:sudo pip3 install tensorflow-gpu
    开始下载---------Downloading
    tensorflow_gpu-1.6.0-cp35-cp35m-manylinux1_x86_64.whl以及各种依赖包;
    然后出现下面问题:
You are using pip version 8.1.1, however version 9.0.3 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.

百度解决方案:

apt install python-pip
python -m pip install --upgrade pip
sudo pip install tensorflow-gpu

(注意:若在python3.5安装,则:先pip3 install --upgrade pip 然后sudo pip3
install tensorflow-gpu)
再次下载安装,没有警告或报错。

  1. 然后无论是输入python还是python3,若import tensorflow as tf 则会报错:
ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory
Failed to load the native TensorFlow runtime.

这是因为我装了tensorflow-gpu 1.5版本,而我用的是cuda 8.0和cudnn6.0,1.5版本要求cuda 9.0,解决方法是回滚:pip install tensorflow-gpu==1.4(在python2.7上回滚安装好tesorflow1.4);若用pip3 install tensorflow-gpu==1.4 则是回滚python3.5上安装好的tensorflow——个人建议在python3.5上使用Tensorflow。
总之,这种python--pip--tensorlow--CUDA的匹配问题一定要谨慎(我个人就是特别容易搞混这个,然后导致两种python版本都安装了tensorflow,然后回滚的时候也搞混~~区分pip和pip3的使用!!!)

  1. 验证tensorflow-gpu:
    终端输入:python3
    然后输入验证程序:
import tensorflow as tf
hello = tf.constant('Hello, TensorFlow!')
sess = tf.Session()
print(sess.run(hello))

如果安装成功,则会显示 Hello, TensorFlow! 如下图:

大功告成

你可能感兴趣的:(Ubuntu16.04+Tensorflow+GPU环境安装)