配置hovorod

hovorod是一个分布式深度学习框架,可以集成在tensorflow、keras、pytorch中。
参考:https://github.com/horovod/horovod#install

0. 安装环境

  • ubuntu 18.04
  • cuda10.1

1. 安装openmpi

https://www.open-mpi.org/software/ompi/v4.0/
在上面地址中下载openmpi-4.0.3.tar.gz,然后按照下面命令安装

gunzip -c openmpi-4.0.3.tar.gz | tar xf -
cd openmpi-4.0.3
./configure --prefix=/usr/local
<...lots of output...>
make all install
<...lots of output...>
sudo ldconfig

2. 安装nccl

https://developer.nvidia.com/nccl/nccl-download
首先需要注册nvidia账户,做一个问卷,然后根据自己的系统以及cuda版本选择对应的local安装包,我选择的是nccl v2.5.6 for cuda10.1 for Ubuntu 18.04

sudo dpkg -i nccl-repo-ubuntu1804-2.5.6-ga-cuda10.1_1-1_amd64.deb

3. 安装horovod

安装命令:

OROVOD_GPU_ALLREDUCE=NCCL HOROVOD_GPU_BROADCAST=NCCL pip install horovod

你可能感兴趣的:(配置hovorod)