深度学习图形工作站环境安装与配置(3)Tensorflow-gpu安装各种坑,运行占显存不占CPU,提示找不到libraries,提示tf没有xx函数

笔者最近安装tensorflow遇到了各种坑,花了不少时间解决,这里总结一下,纪念被他折腾的那段时间⊙﹏⊙

安装环境

该篇文章是深度学习GPU工作站配置的系列文章之一,在上两篇文章中,笔者介绍了anaconda,jupyter,cuda,cudnn等各种基本运行条件,读者可以看看前面两篇文章
深度学习图形工作站环境安装与配置(1)CUDA和cuDNN的安装
深度学习图形工作站环境安装与配置(2)anaconda的安装与配置和jupyterlab的部署,开机自启动
我们的环境主要是基于Ubuntu 18.04 ,Anaconda 3等环境进行的

错误一:

找不到库,各种千奇百怪的错误
深度学习图形工作站环境安装与配置(3)Tensorflow-gpu安装各种坑,运行占显存不占CPU,提示找不到libraries,提示tf没有xx函数_第1张图片
这个提示找不到库的错误主要是因为cuda和cudnn的版本和tensorflow所支持的版本不符,不能够兼容产生的错误,读者可以在tensorflow的官网找到相关的安装环境要求
深度学习图形工作站环境安装与配置(3)Tensorflow-gpu安装各种坑,运行占显存不占CPU,提示找不到libraries,提示tf没有xx函数_第2张图片
cuda cudnn tensorflow的版本必须相对应,不能过高或过低,为此tensorflow给出了适合的编译环境
安装版本要求
你可以参照笔者的第一篇文章进行安装cuda等软件操作,或者升级到适应的版本
深度学习图形工作站环境安装与配置(3)Tensorflow-gpu安装各种坑,运行占显存不占CPU,提示找不到libraries,提示tf没有xx函数_第3张图片

错误二:

使用

nvidia-smi

查看GPU使用情况
使用

top

查看CPU使用情况
发现虽然显存占了,但是GPU使用率几乎为0
这个错误是由于tensorflow版本>=tensorflow-gpu的版本
优先使用第一个CPU版
你可以使用

pip list

深度学习图形工作站环境安装与配置(3)Tensorflow-gpu安装各种坑,运行占显存不占CPU,提示找不到libraries,提示tf没有xx函数_第4张图片
来检查版本以确定是不是这个错误,卸载掉cpu版或者将gpu版升级,cpu版降级都可以修好
直接卸载tensorflow cpu版比较方便,关于升降级见下

pip uninstall tensorflow

再此查看pip包列表,如果卸载了就ok了

错误三:

提示tf没有xx函数,程序明明在另一台电脑可以运行,但在这就不行了
这实际上是因为tf版本过高或过低,你需要安装合适的版本
首先把安装的tensorflow都卸载干净

pip uninstall tensorflow
pip uninstall tensorflow-gpu

安装你原来使用的指定版本
如果只有cpu的话

pip install tensorflow==版本号

如果需要用gpu版,不要安装cpu版了,执行

pip install tensorflow-gpu==版本号

注意cuda,cudnn,tf等的兼容问题,可以看看错误一

终极大招

可能读者会问,我是小白怎么办,搞不清各种关系。或者实验室又有老师用的tf版本不同,这个时候你可以使用docker安装tf镜像,相当于一个虚拟机,详见:
深度学习图形工作站环境安装与配置(5)Tensorflow兼容性终极解决方案,用Docker安装多版本Tensorflow,Docker19.03以后版本安装Tensorflow-gpu
深度学习图形工作站环境安装与配置(3)Tensorflow-gpu安装各种坑,运行占显存不占CPU,提示找不到libraries,提示tf没有xx函数_第5张图片

你可能感兴趣的:(数据科学与人工智能笔记,技术笔记与杂谈)