linux安装tf-gpu注意事项

一、预准备
1、查看是否有gpu
    lspci | grep -i nvidia
2、安装必备的软件
    yum install gcc
    yum install gcc-g++   应该是gcc-c++
    yum install kernel-devel
    yum install kernel-headers  
3、关闭系统自带驱动Nouveau drivers(可参考官方手册https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#runfile)
4、yum update;这个非常重要,否则会一直报错,提示无法定位kernel;

二、安装cuda
 1、下载cuda,网址(https://developer.nvidia.com/cuda-downloads),根据自己的操作系统来下载对应的cuda
    选择了Linux+centos7+runfile;官方给出安装命令:
    Installation Instructions: 
        Run `sudo sh cuda_9.1.85_387.26_linux.run` 
        Follow the command-line prompts(除了不安装驱动,其他都yes)

linux安装tf-gpu注意事项_第1张图片
    由于下载安装的tensorflow1.8,但只能用9.0的cuda,所以安装后用不了,提示无法找到9.0的东西

2、下载cuda9.0的东西,然后安装,再配置环境变量(export LD_LIBRARY_PATH=LD_LIBRARY_PATH:/usr/local/cuda-9.0/lib64/),reboot

vim .bashrc

source .bashrc

3、然后下载cudnn7,将对应的文件copy到cuda下,提示无法找到libcudnn.so.7;搜索发现该文件属于cudnn9.0;而cudnn7.0..v5对应的文档是libcudnn.so.5;可参考:
linux安装tf-gpu注意事项_第2张图片

4、下载cudnn-9.0-linux-x64-v7,然后将对应的文件copy到cuda的对应目录下;

5、最后测试ok

三、总结
这个安装共用时2天,首先是无法定位到核;然后是无法找到cuda9.0,最后是无法找到libcudnn.so.7;
解决的方法上面已经给出;最重要的经验是cuda与cudnn的版本要与tensorflow-gpu版本相对应;抓住这条主线可以省略不少时间

 

20180912在centos7.5版本上安装cuda9.1时,上述方法仍然无法定位到核,使用如下命令,就可以了:

sudo yum install epel-release

yum install --enablerepo=epel dkms

你可能感兴趣的:(deep,learning,python)