OSError: libcudart.so.9.0: cannot open shared object file: No such file or directory

这是cuda版本的问题,这里提到的只是造成该报错的一种原因,其他问题也可能导致此种报错

我用到的是

pytorch/pytorch   1.7.1-cuda11.0-cudnn8-devel

在容器中运行时,提示我没有dgl包(代码中有import dgl)

所以在容器中直接pip install dgl,下载成功后再次运行,报错如下

dgl._ffi.base.DGLError: /opt/dgl/src/runtime/XXX

总之就是刚下的dgl有问题

后来找到一个解决方式是

pip uninstall dgl
pip install dgl-cu90

就尝试了一下,再运行时,报错就是题目的错误了,版本对不上号,是因为运行时代码在找cuda9.0的配置文件,但是我的镜像是cuda11.0的,所以找不到文件因此报错。

最后发现原来问题出在pip install dgl-cu90,这个就是90应该就代表了cuda9.0的版本,当时没有注意到这个问题,所以

pip uninstall dgl
pip install dgl-cu110

自己将90改成110意味着9.0改为11.0。

再次运行就成功的run起来了。

你可能感兴趣的:(容器,docker)