Could not load library libcudnn_cnn_train.so.8 问题及解决方案

Could not load library libcudnn_cnn_train.so.8 问题及解决方案

    • 具体的错误提醒
    • 具体原因
    • 解决方案
      • 方案1
      • 方案2

近期多人遇到该问题,多处论坛也没有说清该问题及解决方案,在此处记录一下。

具体的错误提醒

Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.3/lib64/libcudnn_cnn_train.so.8: undefined symbol: 后面一长串
不同版本的提醒不一样,由于安装路径不一样,前面的路径或许也不一样

具体原因

首先,安装cudnn时,参加基本都是参考网上的教程,在官网下载安装cuda和cudnn, 然后添加路径。例如,本人在维护时,通常将其安装在默认的路径 /usr/local/cuda-xx.x, 添加全局路径在/etc/profile,局部路径的话,在个人账户的.bashrc,里面包括
export PATH=路径,
export LD_LIRBARY_PATH=路径。
此时,将cudnn的路径指向了/usr/local/cuda-xx.x/lib64/ 。
然后,安装PyTorch, 如果是按照官网的提醒,直接使用pip install torch,安装完就会发现上述问题。

当我们查看PyTorch的下载链接https://download.pytorch.org/whl/torch/时,可以看到,从cuda11.7开始, torch版本,会包含一个带cudnn和版本和不带cudnn的版本。例如:适用于python3.11和cuda12.1的,
不带cudnn: torch-2.1.1+cu121-cp311-cp311-linux_x86_64.whl
带cudnn:torch-2.1.1+cu121.with.pypi.cudnn-cp311-cp311-linux_x86_64.whl

如果直接使用pip在线安装的话,即pip install torch,会默认下载带cudnn的版本,其位置就在 conda路径+python路径下, torch默认需要指向这里。但是,系统cudnn指向的是/usr/local/这个系统cudnn的路径,发生了冲突,因此出现上述问题。

解决方案

有两种解决方案:

方案1

如果你习惯直接使用pip在线安装torch,使用torch带的cudnn, 那就把系统的或者个人的cudnn指向删除即可。例如,个人路径的话,就在.bashrc中,将export LD_LIRBARY_PATH= 那行注释掉即可。

方案2

如果用系统的cudnn, 需要从https://download.pytorch.org/whl/torch/ 下载不带cudnn的版本,然后在文件路径下,pip install + 本地的whl文件,安装后也可以正常运行。

两种方案中,个人更推荐方案2。因为对于多人使用或者需要配多个环境时,在/usr/local下只需要安装一次,所有人和环境均使用同一个cudnn即可。如果是方案1, 每个人或者每个环境下,都会多安装一次cudnn。

你可能感兴趣的:(cnn,python,人工智能,pytorch)