Ascend_PyTorch安装指北

Ascend_PyTorch安装指北

主要分为以下几步:

  1. 升级固件和驱动;
  2. 安装CANN包toolkit;
  3. 安装torch-1.11;
  4. 安装apex;
  5. 安装deepspeed;

升级固件和驱动

固件版本为:Ascend-hdk-910-npu-firmware_6.3.0.1.241.run
驱动版本为:Ascend-hdk-910-npu-driver_23.0.rc1_linux-aarch64.run

关于固件驱动,昇腾提供社区版下载链接

这里有几个选项注意下:

  • 产品系列:服务器
  • 产品型号:Atlas 800训练服务器(型号:9000)(对于x86的CPU,型号选9010)
  • CANN版本:6.3.RC2.alpha002
  • 固件与驱动:1.0.19.alpha
  • 软件包格式:run

下载后,切换到管理员账户运行:

bash Ascend-hdk-910-npu-firmware_6.3.0.1.241.run --full
# 上面一步安装完后,暂时不要reboot,等下面的驱动一起安装完后,再reboot
bash Ascend-hdk-910-npu-driver_23.0.rc1_linux-aarch64.run --full --install-for-all
# 重启机器使固件和驱动生效
reboot now

重启后,测试安装的固件驱动是否有效:

npu-smi info

第一行显示 npu-smi 23.0.rc1 Version: 23.0.rc1则表示升级成功!

安装CANN包toolkit

昇腾提供CANN包的社区版下载链接

在这里选取最新的6.3.RC2.alpha002版本,跟上面的固件驱动里面显示的CANN版本一致。

软件包:run
软件名称:Ascend-cann-toolkit_6.3.rc2.alpha002_linux-aarch64.run (如果是x86 CPU,选取Ascend-cann-toolkit_6.3.rc2.alpha002_linux-x86_64.run)

安装继续使用管理员权限:

bash Ascend-cann-toolkit_6.3.rc2.alpha002_linux-aarch64.run --install --install-for-all --install-path=/usr/local/Ascend

PS: 这里需要注意下,安装CANN包时,对python的一些包有依赖关系。笔者建议用户在管理员账户下配置一个conda环境来解决这些依赖包问题。

安装完CANN包后,需要在每个用户下面配置对应的环境变量,把下面的环境变量添加到~/.bashrc后面:

# mindspore env

# control log level. 0-DEBUG, 1-INFO, 2-WARNING, 3-ERROR, default level is WARNING.
export GLOG_v=3

# Conda environmental options
LOCAL_ASCEND=/usr/local/Ascend # the root directory of run package

# lib libraries that the run package depends on
export LD_LIBRARY_PATH=${LOCAL_ASCEND}/ascend-toolkit/latest/fwkacllib/lib64:${LOCAL_ASCEND}/driver/lib64:${LOCAL_ASCEND}/ascend-toolkit/latest/opp/op_impl/built-in/ai_core/tbe/op_tiling:${LD_LIBRARY_PATH}

# Environment variables that must be configured
export TBE_IMPL_PATH=${LOCAL_ASCEND}/ascend-toolkit/latest/opp/op_impl/built-in/ai_core/tbe            # TBE operator implementation tool path
export ASCEND_OPP_PATH=${LOCAL_ASCEND}/ascend-toolkit/latest/opp                                       # OPP path
export PATH=${LOCAL_ASCEND}/ascend-toolkit/latest/fwkacllib/ccec_compiler/bin/:${PATH}                 # TBE operator compilation tool path
export PYTHONPATH=${TBE_IMPL_PATH}:${PYTHONPATH}

安装torch-1.11

按照这个链接来安装即可:

注意python版本选取python=3.7(根据自己的需求来)。

安装torch-cpu版本的安装包

wget https://repo.huaweicloud.com/kunpeng/archive/Ascend/PyTorch/torch-1.11.0-cp37-cp37m-linux_aarch64.whl
pip install torch-1.11.0-cp37-cp37m-linux_aarch64.whl

安装torch的插件torch_npu

  1. 下载wheel包,直接安装

    wget https://gitee.com/ascend/pytorch/releases/download/v5.0.rc1-pytorch1.11.0/torch_npu-1.11.0-cp37-cp37m-linux_aarch64.whl
    pip install torch_npu-1.11.0-cp37-cp37m-linux_aarch64.whl
    
  2. 编译安装

    git clone -b master https://gitee.com/ascend/pytorch.git
    cd pytorch && bash ci/build.sh -python=3.9
    pip install --upgrade dist/torch_npu-xxx.whl
    

安装对应的torchvision

pip install torchvision==0.9.1   

安装apex

apex是混合精度训练的模块

安装依赖

  1. 检查gcc版本,需要为7.3.0以上版本,这个一般是满足的。

    gcc --version
    
  2. 安装cmake,要求3.12.0以上版本。这里建议采用conda来安装,因为ubuntu默认的cmake版本比较低,不满足条件

    conda install cmake
    # 检查cmake版本
    cmake --version
    

安装apex

# 拉取昇腾适配的apex源码
git clone -b master https://gitee.com/ascend/apex.git
# 拉取原生apex源码
cd apex
git clone https://github.com/NVIDIA/apex.git
# 进入apex原生源码目录,并切换分支
cd apex
git checkout 4ef930c1c884fdca5f472a
cd ..
# 对昇腾的apex源码打补丁
cd scripts
bash gen.sh
# 生成apex的whl安装文件
cd ../apex
python setup.py  --cpp_ext --npu_float_status bdist_wheel
# 安装apex
cd dist
pip install  apex-0.1_ascend-cp37-cp37m-linux_aarch64.whl

你可能感兴趣的:(python,深度学习,pytorch,昇腾,NPU)