Could not load dynamic library ‘cublas64_10.dll‘; dlerror: cublas64_10.dll not found或者缺少DLL问题

项目场景:

       tensorflow对GPU的支持,尤其是对英伟达GPU的支持,不只是下个tensorflow-gpu就完事了,还需要一系列显卡相关的软件的版本匹配,比如最常见的就是那个cuda的版本匹配问题。当然匹配后也不可避免的有很多奇怪的问题,接下来我要讲的就是其中一个
Could not load dynamic library ‘cublas64_10.dll’; dlerror: cublas64_10.dll not found
Could not load dynamic library ‘cufft64_10.dll’; dlerror: cufft64_10.dll not found
Could not load dynamic library ‘curand64_10.dll’; dlerror: curand64_10.dll not found
Could not load dynamic library ‘cusolver64_10.dll’; dlerror: cusolver64_10.dll not found
Could not load dynamic library ‘cusparse64_10.dll’; dlerror: cusparse64_10.dll not found
问题。


       (不过如果有同学提示的是没有cuDNN的dll文件,那就看一下附录!,这边的报错是针对版本配好的)

问题描述:

       很多同学根据网上的提示都配好了CUDA的环境,但发现运行还是会有一大堆奇怪的提示,但是训练似乎没受影响很多同学可能就没多想,毕竟一大堆专业名词,没报错就等于没错好了。

但我们仔细看就发现问题了:
Skipping registering GPU devices…,
翻译一下,跳过GPU,好家伙,人家压根就没用你的GPU,没报错也就是因为你还有个CPU,所以全然不知,就算训练速度慢了,也没个概念,感觉估计就这个速度算快了吧。
在这里插入图片描述

       但我们不可能搞个那么值钱的GPU为了深度学习,结果还不用,那也太浪费了,接下来就是分析一下怎么调试吧。


原因分析:

我们可以看到上面的一些提示
在这里插入图片描述
那种什么successfully的肯定是没问题,但那些could not load的肯定是有问题了,可是我们明明对了版本为什么还是会说打不开呢?

Could not load dynamic library 'cublas64_10.dll'; dlerror: cublas64_10.dll not found
Could not load dynamic library 'cufft64_10.dll'; dlerror: cufft64_10.dll not found
Could not load dynamic library 'curand64_10.dll'; dlerror: curand64_10.dll not found
Could not load dynamic library 'cusolver64_10.dll'; dlerror: cusolver64_10.dll not found
Could not load dynamic library 'cusparse64_10.dll'; dlerror: cusparse64_10.dll not found

解决方案:

其实解决办法很简单,去到我们的CUDA按照路径,一般都是

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.0\bin

我们会在里面找到这些所谓的could not load的文件,说明我们都是有的

Could not load dynamic library ‘cublas64_10.dll‘; dlerror: cublas64_10.dll not found或者缺少DLL问题_第1张图片
但为什么打不开呢?看仔细点,人家后缀是10,我们的后缀都是100
所以我们尝试一下,把后缀名改成10看看
Could not load dynamic library ‘cublas64_10.dll‘; dlerror: cublas64_10.dll not found或者缺少DLL问题_第2张图片
再放回去那个文件夹
再重新启动我们的程序
在这里插入图片描述
       而且我们可以看到那个Skipping registering GPU devices…也没了,那就是说明他启动成功了,但最直观的证明在哪呢?你的训练速度现在应该是几何倍数的提升了,像之前我的示例简单的一个手写数字识别,原来启动失败训练10轮的时间的5分20秒,启动独显后训练时间是53秒。这就是你那块那么值钱的显卡的厉害之处。

附录:

有些同学可能是连CUDA都没更新好,那用这个办法肯定是不行的,我这边就简单附上一个tensorflow-gpu版本和CUDA版本的对应图
Could not load dynamic library ‘cublas64_10.dll‘; dlerror: cublas64_10.dll not found或者缺少DLL问题_第3张图片
以及对应的cuDNN的版本:
Could not load dynamic library ‘cublas64_10.dll‘; dlerror: cublas64_10.dll not found或者缺少DLL问题_第4张图片

你可能感兴趣的:(错误调试,人工智能,深度学习,人工智能,大数据,tensorflow,python)