基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100)

一、Tensorflow-gpu安装需要
根据tensorflow-gpu版本的软件要求:
【注意】NVIDIA GPU drivers 需要与CUDA对应
CUDA 9.0
https://developer.nvidia.com/cuda-90-download-archive?target_os=Linux
NVIDIA GPU DRIVERS >= 384.x
https://www.nvidia.cn/Download/driverResults.aspx/139366/cn
cuDNN >= 7.2
https://developer.nvidia.com/rdp/cudnn-download
基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100)_第1张图片
二、TESLA P100驱动安装
1、    首先根据自己GPU的型号到NVIDIA官网去下载相应的驱动程序:
不是最新最好,而是要版本对应才最好;
本团队使用的GPU:TESLA  P100
根据自己电脑的操作系统;GPU的型号;CUDA版本;下载对应的驱动文件;
基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100)_第2张图片

基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100)_第3张图片
2、    下载好之后是一个.run文件;
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
安装驱动需要注意的几点:
关闭图形界面:
(1)    sudo systemctl set-default multi-user.target  (启动时默认多用户文本界面)
sudo systemctl set-default graphical.target   (启动时默认图形界面)
(2)    或者也可以使用,关闭:sudo service lightdm stop
恢复:sudo service lightdm stop
(3)    关闭显卡驱动:
创建:/etc/modprobe.d/blacklist-nouveau.conf
编辑:blacklist nouveau
      options nouveau modeset=0
保存退出执行:sudo update-initramfs –u
验证是否关闭:lsmod | grep nouveau
没有输出则表示屏蔽好了,如果仍有输出,可以尝试重启;
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
安装时必须以root身份运行程序;如果不是可使用sudo;
sudo ./NVIDIA-Linux-x86_64-410.72.run
问题:The distribution-provided pre-install script failed!  Are you sure you want to continue?
可能会遇到以上问题:不要选择abort installations、选择continue installations
基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100)_第4张图片
基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100)_第5张图片
3、    安装完成后,验证:
nvidia-smi
出现如下界面表示驱动安装正常。可以看到有一块序号为0的GPU板卡;基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100)_第6张图片

三、CUDA9.0安装

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
确认计算机有支持计算的GPU板卡:
lspci | grep –i nvidia          (刷新:update-pciids)
 
确认计算机系统是否支持:
uname -m && cat /etc/*release
 基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100)_第7张图片
确认计算机是否有合适的编译器gcc:
gcc –version
 
确认计算机是否有正确的kernel headers 和 development packages:
在安装cuda驱动时,安装的内核头和开发包必须和系统运行的内核版本相一致;
【注意】如果改变了系统内核,对应的内核头和开发包也必须做相应更改,否则cuda将无法使用;
uname -r 
 
Ubuntu16.04:
sudo apt-get install linux-headers-$(uname -r)

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
1、下载cuda9.0
https://developer.nvidia.com/cuda-90-download-archive?target_os=Linux
https://developer.nvidia.com/cuda-toolkit-archive
cuda 9.0 除了基本的安装包以外,还有若干个补丁,依次下载之后,在进行依次安装;

2、安装
【注意】因为前面已经手动安装了NVIDIA驱动,所以在安装cuda时,询问是否安装NVIDIA图形驱动时选择否;其他询问默认即可;
基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100)_第8张图片
3、添加环境变量
安装完cuda之后,还需要添加路径;
根据安装完之后的提示信息:

基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100)_第9张图片
编辑:sudo vim 用户根目录/.bashrc添加一下信息
如/home/howe/.bashrc
export PATH="/usr/local/cuda-9.0/bin${PATH:+:${PATH}}"
export LD_LIBRARY_PATH="/usr/local/cuda-9.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}"

4、重启验证
先查看一下/dev目录下有木有nvidia*的文件,如果有,是不是0666权限。
CUDA驱动程序使用这些文件与NVIDIA驱动程序的内核模式部分通信。
但是,有些系统不允许setuid二进制文件,所以如果这些文件不存在,您可以使用如下启动脚本手动创建它们:
touch start_up.sh
vim start_up.sh
chmod 0666 start_up.sh
sudo ./start_up.sh
cd /dev/
chmod 0666 nvidia**
基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100)_第10张图片
以下验证操作前先执行查看环境变量是否正确:
$PATH
输出中是否有/usr/local/cuda-9.0/bin
$LD_LIBRARY_PATH
输出是否有/usr/local/cuda-9.0/lib64
如果都没有,请执行添加命令,参考添加3、添加环境变量
然后再查看NVIDIA驱动是否安装正确:

再验证编译驱动:

First:找到cuda-install-samples-9.0.sh脚本

执行改脚本,并提供存放sample的目录名

Second:cd到你刚才执行脚本后面加的目录里,我这里是./test/NVIDIA_CUDA-9.0_Samples/,然后执行make命令,按照Makefile内容编译;编译完成后的所有结果将再bin文件夹里;编译需要花好些时间;

Third:执行,首先依次到release目录下,会有很多文件,只需要执行./deviceQuery,如果输出如下,表示安装正常;

基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100)_第11张图片
再执行./bandwidthTest,确保系统和支持cuda的设备能够正确通信。基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100)_第12张图片

四、安装cuDNN

https://developer.nvidia.com/cudnn
1、下载cuDNN需要登陆账号,你可以注册以下;然后到下载页面;下载红色框中的三个.deb文件;
基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100)_第13张图片
2、安装
下载完成后,依次执行安装:
sudo dpkg -i libcudnn7_7.0.3.11-1+cuda9.0_amd64.deb
sudo dpkg -i libcudnn7-dev_7.0.3.11-1+cuda9.0_amd64.deb
sudo dpkg -i libcudnn7-doc_7.0.3.11-1+cuda9.0_amd64.deb
3、验证cuDNN
复制验证文件到自己的目录下,我用的是download
cp -r /usr/src/cudnn_samples_v7  ./download
编译:
cd到./download/cudnn_samples_v7/mnistCUDNN下执行sudo make clean && sudo make
编译成功后会有一个mnistCUDNN;执行./mnistCUDNN
如果输出有Test passed! 说明安装成功了;

五、安装tensorflow-gpu

pip install tensorflow-gpu
会需要比较长的时间安装;

六、使用

安装完之后可以写一段tensorflow的代码,查看GPU使用情况(nvidia-smi)。

你可能感兴趣的:(基于ubuntu16.04操作系统安装tensorlfow-gpu版(GPU板卡:nvidia tesla P100))