ubuntu18.04+cuda11.4+nccl安装

  本文参考自,但更加详细的介绍了安装方法,避免走弯路ubuntu下安装nccl具体教程_ubuntu安装nccl-CSDN博客文章浏览阅读1w次,点赞5次,收藏12次。使用paddlepaddle框架进行多卡训练时报错:Traceback (most recent call last): File "train.py", line 210, in do_train() File "train.py", line 91, in do_train paddle.distributed.init_parallel_env() File "/home/th/anaconda3/envs/paddle/lib/pytho..._ubuntu安装ncclhttps://blog.csdn.net/Thanours/article/details/124078380?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171265146216800182740317%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=171265146216800182740317&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-124078380-null-null.142%5Ev100%5Epc_search_result_base5&utm_term=ubuntu%20NCCL%20%E5%AE%89%E8%A3%85&spm=1018.2226.3001.4187本人的基本情况如下

我想要安装百度的paddle,然后出现如下报错,如下图

提示我缺少nccl,因此要安装nccl

我是ubuntu18.04,cuda11.4,下面是安装步骤

——————————————————————————————————————————

一、ubuntu安装nccl步骤

点击右侧的连接Installation Guide :: NVIDIA Deep Learning NCCL Documentation

 进入后,点击下图红色圈

进入后,点击下图红色圈

ubuntu18.04+cuda11.4+nccl安装_第1张图片

进入后,点击下图红色圈,下载历史版本

进入后,勾选I Agree To the Terms of the ,下面会出现一列列的nccl的版本

选择你自己的cuda版本的nccl,我的是11.4,要往下滑动很久,然后点击这个版本。

然后按着我下面图片画得红圈里面的命令行一步一步输入在终端里面

也就是我下面的这几段命令,我把它摘出来,方便复制

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin
$ sudo mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
$ sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/ /"
$ sudo apt-get update

当输入倒数第二个命令的时候,会出现如下报错(我出现了,不一定每个人都出现)

解决方法为:在终端输入下面的命令

sudo gedit /usr/bin/add-apt-repository

 弹出一个文件,然后把第一行改为#!/usr/bin/python3.6,就解决了

然后再次在终端输入倒数第二个命令,还会出现一个报错,如下图

这个报错是因为缺少相应的公钥,解决办法为:在终端输入下面的命令

sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys A4B469963BF863CC

即可获取缺失的公钥,然后再次输入倒数第二条命令,就好了,然后输入最后一个命令sudo apt-get update,就完事了

然后在终端中输入下图中紫色圈内的命令

也就是我下面的这段命令,我把它摘出来,方便复制

sudo apt install libnccl2=2.11.4-1+cuda11.4 libnccl-dev=2.11.4-1+cuda11.4

到这里就安装完了

二、将nccl添加到环境变量中 

首先查找你nccl的安装目录

在终端输入命令whereis nccl

我的是在/usr/include/nccl.h

然后在终端输入vim ~/.bashrc进入该文件

添加如下内容到文件中(添加到最低行

#设置cuda库的目录
export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64
#将nccl添加到LD_LIBRARY_PATH中
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/include/nccl.h

保存好后,终端输入命令:source ~/.bashrc 让配置文件生效

再通过echo $LD_LIBRARY_PATH命令查看环境变量设置是否成功。

到此大功告成,安装完毕

你可能感兴趣的:(ubuntu)