tensorflow-gpu训练gpu占用率、利用率都很低

1问题描述

最近用bert训练模型时,发现GPU资源占用很小,小到连bert模型都装不下,然后cpu几乎占满tensorflow-gpu训练gpu占用率、利用率都很低_第1张图片
排除了代码问题,数据传输问题,排除了资源选择问题,懵逼了。。。一时也不知道咋回事,之前还没有遇到过。

2.问题发现

无意间发现了日志报告的一段

Cannot dlopen some GPU libraries. Please make sure the missing libraries mentioned above are install

之前因为程序能跑,就忽略了警告。。。我真是个憨批。
发现是cuda版本和tensorflow-gpu版本不兼容,应该是之前同事把cuda版本改掉了。。。
我安装的tensorflow-gpu是1.15.3,对应的cuda版本应该是10.0。
tensorflow-gpu训练gpu占用率、利用率都很低_第2张图片
对应版本号查找链接

3.解决

看了网上了方法,说可以通过conda安装cudatoolkit=10.0来解决。
但是。。。并不能安装上。
在usr/local下发现有多个版本的cuda,虽然安装了10.1,但是10.0还在,暂时只能通过修改环境变量来解决了

cd ~ 
vim .bashrc
# 找到cuda的path,把10.1全部修改为10.0
# 使配置生效
source .bashrc

解决~

你可能感兴趣的:(TensorFlow采坑,深度学习,cuda,tensorflow)