tensorflow1.12 多GPU协同训练报错tensorflow.python.framework.errors_impl.NotFoundError: libnccl.so.2

       tensroflow为了提高多模型训练速度,需要多个GPU同时工作,而且我们一般使用的工作站都是8块tesla K80,如果能将8块显卡的计算力充分利用起来,将会大大提高模型训练的速度,缩短模型训练时间。

       这几天看到tensorflow的morroredstrategy特别好用,就想试试,所以写了代码,想看看多个GPU的效能怎么样,就仿照github上tensorflow的一些例子写了一些教程,但是出现了一个错误:

tensorflow.python.framework.errors_impl.NotFoundError: libnccl.so.2: cannot open shared object file: No such file or directory。

根据报错的内容,我们知道,缺少一个文件,libnccl*** 类似的东西,看到nccl立马想到是nvidia的东西,经过查找资料发现,这个东西应该放在cuda文件夹下,在出现需要多个GPU同时工作时来调用的,如果cuda对应的lib64文件下没有找到该文件,就需要下载一下,默认的cuda并不直接安装该功能的,但是如果已经有cuda的情况下,只需要将对应的文件复制进cuda文件夹下的lib64 这个库里。

首先,下载目标文件,nvdia官网下载,如果没有注册nvidia developer就注册一个账号,也没啥损失,邮箱就可以。

tensorflow1.12 多GPU协同训练报错tensorflow.python.framework.errors_impl.NotFoundError: libnccl.so.2_第1张图片

可以找自己cuda对应的版本进行下载,因为我是cuda9.2,所以操作如下图所示

tensorflow1.12 多GPU协同训练报错tensorflow.python.framework.errors_impl.NotFoundError: libnccl.so.2_第2张图片

下载第一个压缩包就好,解压后得到两个文件夹include 和 lib,如图:

将include文件夹下的文件都复制到cuda文件夹下对应的inlcude中去,

sudo cp include/* /usr/local/cuda-9.2/include
sudo cp lib/* /usr/local/cuda-9.2/lib64

这个要根据自己的位置而定,我是在include文件夹外面一级的目录里,同时也要看自己的cuda库装在哪,版本号是多少。需要删除原有文件,然后重新生成libnccl.so 和 libnccl.so.2这两个文件.

cd /usr/local/cuda-9.2/lib64
sudo rm libnccl.so libnccl.so.2
sudo ln -s libnccl.so.2.3.5 libnccl.so.2
sudo ln -s libnccl.so.2 libnccl.so

对应的结果会变颜色

这说明已经ok了,就可以正常运行了。

核心代码是

distribution = tf.contrib.distribute.MirroredStrategy(num_gpus=1)
config = tf.estimator.RunConfig(train_distribute=distribution)

 

 

 

你可能感兴趣的:(tensorflow1.12 多GPU协同训练报错tensorflow.python.framework.errors_impl.NotFoundError: libnccl.so.2)