前两天安装一台GPU工作站,P100的GPU的卡,系统是centos7,安装tensorflow-gpu 1.8,网上各种教程各种坑,最后还是自己找方法解决。
1、GPU服务器,Tesla P100
2、centso7.3
3、python3.6
安装前是安装python3.6,tesorflow支持python2.7和3.5比较好,
一、下载CUDA9.0
安装显卡驱动再安装cuda显卡驱动可能会掉,所以先安装cuda,
CUDA官网下载的run包,因为CUDA的run包运行是最简单方便的,比如我的版本为下图1所示,下载【 cuda_9.0.176_384.81_linux.run】
https://developer.nvidia.com/cuda-toolkit-archive
旧版本tensorflow与cuDNN、CUDA的版本关系
二、停用原有显卡
1)把nouveau驱动添加到黑名单
# vim /usr/lib/modprobe.d/dist-blacklist.conf
在很多blacklist下方加入一行
blacklist nouveau
保存
2)接着给当前镜像做备份 (单独用"uname-r" 命令得到的是版本号)
#mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
3)建立新的镜像
#dracut /boot/initramfs-$(uname -r).img $(uname -r)
等待完成。
4)重新启动
#init 6
三、开始安装cuda
安装前关闭图形界面
#init 3
到我们拷贝了run包的路径下,然后运行命令:
sh cuda_9.1.85_387.26_linux.run
等待下方出现进度条状的“1%”时按q
出现各种选项,分别按提示输入accept 或 y +回车,defalut的按回车
等待安装完成。
四、修改环境变量
(1) 打开要编辑的文件
#vim ~/.bash_profile
(2)在export下方加入这两行:
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-9.0/lib64
export PATH=$PATH:/usr/local/cuda-9.0/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-9.0
(3)运行文件
#source ~/.bash_profile
五、查看安装结果的命令
(1) #nvidia-smi #查看显卡驱动运行状态
(2)#nvcc --version #查看cuda-toolkit安装是否成功
测试cuda
#cd /usr/local/cuda-8.0/samples/1_Utilities/deviceQuery
#sudo make
#./deviceQuery
六、安装显卡驱动
#yum -y install gcc-c++
检测显卡驱动及型号
##添加ELPepo源
# sudo rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
# sudo rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm
##安装NVIDIA驱动检测
# sudo yum install nvidia-detect
# nvidia-detect -v
下载网址:https://www.nvidia.cn/Download/index.aspx?lang=cn
#wget http://cn.download.nvidia.com/tesla/384.145/NVIDIA-Linux-x86_64-384.145.run
#sh NVIDIA-Linux-x86_64-384.145.run
七、下载安装cuDNN
需要注册登录nvidia账号:https://developer.nvidia.com/rdp/cudnn-archive
下载的格式是solitairetheme8
需要在linux上进行转换
#cp cudnn-9.0-linux-x64-v7.solitairetheme8 cudnn-9.0-linux-x64-v7.tgz
#tar -zxvf cudnn-8.0-linux-x64-v5.1.tgz -C /usr/local
八、下载安装tensorflow-gpu
https://pypi.org/project/tensorflow-gpu/
注意下载对应python的版本
#sudo pip3 install tensorflow_gpu-1.8.0-cp36-cp36m-manylinux1_x86_64.whl
等待安装完成。
九、测试结果
#python3
>>>import tensorflow as tf
>>>hello = tf.constant('Hello, TensorFlow!')
>>>sess = tf.Session()
>>>print(sess.run(hello))
完成安装!