NCCL下载及安装教程

NCCL下载及安装参考教程

作者:白鹿(花名)

注意:请提前获取root权限


1、查看cuda版本

which cuda

2、在确定cuda版本之后,注册并登录英伟达官网,查找指定cuda版本的NCCL软件;

管网链接:https://developer.nvidia.com/nccl/nccl-legacy-downloads

指定版本为:不确定系统,本地安装

3、下载到本地之后,压缩包文件名为:nccl_2.6.4-1+cuda10.0_ppc64le.txz

解压缩相关命令为:

cd /usr/local
tar -xvf nccl_2.6.4-1+cuda10.0_ppc64le.txz
  • 相关文件在GPU-3上已完成解压,可直接cp复制即可;
  • GPU-3文件路径:/home/op/bai**/bak/NCCL/nccl_2.6.4-1+cuda10.0_ppc64le

4、解压缩之后,文件夹包含:

cd nccl_2.6.4-1+cuda10.0_ppc64le
ls

文件夹内容如下:
在这里插入图片描述

5、确定cuda路径,为下一步相关操作做准备(无需参照操作,个人确认cuda版本)
在这里插入图片描述
6、将include文件夹下的文件都复制到cuda文件夹下对应的inlcude中去;同理将lib文件夹下所有文件都复制到cuda文件夹下对应的lib64中去;

相关命令:

sudo cp include/* /usr/local/cuda-10.0/include
sudo cp lib/* /usr/local/cuda-10.0/lib64

7、经过确认,我们安装的是cuda-10.0, 然后进入/usr/local/cuda-10.0/lib64

cd /usr/local/cuda-10.0/lib64
ls

NCCL下载及安装教程_第1张图片
8、需要删除原有文件,然后重新生成libnccl.so 和 libnccl.so.2这两个文件.

# cd /usr/local/cuda-10.0/lib64
# 删除原有文件
sudo rm libnccl.so libnccl.so.2
# 创建软连接
sudo ln -s libnccl.so.2.6.4 libnccl.so.2
sudo ln -s libnccl.so.2 libnccl.so
# 查看软链接是否创建成功
ls

9、将库路径添加到LD_LIBRARY_PATH 环境变量或将其注册到`/etc/ld.so.conf

$ export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/nccl_2.6.4-1+cuda10.0_ppc64le/lib

10、确认是否成功需要再次实验测试。

你可能感兴趣的:(预训练,深度学习,NCCL)