曙光超算平台操作之深度学习

国产DCU和英伟达GPU操作手册

  • 一、 DCU操作:
    • 1. 安装环境并测试
        • 1.1安装pytorch
        • 1.2查看是否能够调用到DCU
    • 2. 作业操作
        • 2.1 提交作业
        • 2.2查看作业
        • 2.3作业删除
        • 2.4实时查看输出
    • 3. 测试总结
  • 二、 GPU操作手册
    • 1. 安装环境并测试
        • 1.1安装pytorch
        • 1.2查看是否能够调用到DCU
    • 2. 作业操作
        • 2.1 提交作业
        • 2.2查看作业
        • 2.3作业删除
        • 2.4实时查看输出
    • 3. 测试总结

一、 DCU操作:

1. 安装环境并测试

1.1安装pytorch

需要安装他们提供的pytorch,支持他们的DCU的:

  • 激活自己的环境:source acctivate 环境名
  • 安装torch:
    pip install /public/software/apps/DeepLearning/whl/dtk-22.04.2/torch-1.10.0a0_gitc7f69d6_dtk22.04.2-cp37-cp37m-manylinux2014_x86_64.whl
    
  • 安装torchvision:
    pip install /public/software/apps/DeepLearning/whl/dtk-22.04.2/torchvision-0.10.0a0_dtk22.04.2_e17f5ea-cp37-cp37m-manylinux2014_x86_64.whl
    

1.2查看是否能够调用到DCU

  • 查看队列:whichpartition

  • 申请节点:salloc -p 队列名 -N 1 --gres=dcu:2

  • 根据申请到的节点登录节点:ssh 节点

  • 切换rocm编译器版本(加载dtk22.04驱动):module switch compiler/dtk/22.04.1

  • 添加环境变量

    • 编辑存放环境变量的文本:vi ~/pytorch_env.sh
    • 添加如下内容:
      export
      LD_LIBRARY_PATH=/public/software/apps/DeepLearning/PyTorch_Lib/lib:/public/software/apps/DeepLearning/PyTorch_Lib/lmdb-0.9.24-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/opencv-2.4.13.6-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/openblas-0.3.7-build/lib:$LD_LIBRARY_PATH
      
    • 保存 ESC + :+ w+ q
    • 激活环境变量:source ~/pytorch_env.sh
  • 激活环境:source acctivate 环境名

  • 执行如下语句验证:

     python
    
    import torch
    torch.cuda.is_available()
    torch.__version__
    
  • 登出节点 exit

2. 作业操作

2.1 提交作业

  • 首先,自己建立.sh作业提交脚本
  • 作业脚本模板:
    • 作业脚本中要加载驱动,但是并没有配置环境变量

    • 编辑文件:vi 文件名 (例如 vi fastrcnn.sh) 或者直接打开该文件

    • 曙光超算平台操作之深度学习_第1张图片

    • 通过sbatch 作业名.sh 提交(例如 sbatch fastrcnn.sh)

2.2查看作业

终端输入:squeue

2.3作业删除

终端输入:scancel 作业号 (作业号就是执行squeue,jobid下面的数字号码)

2.4实时查看输出

终端输入:tail -f 输出文件名(输出文件在和脚本文件在同一个目录下,终端输入字母ls或者ll就可以看见)

3. 测试总结

曲线拟合的效果有点不太好。同样的配置下(单卡 8核心),每次计算时间和结果都很不稳定,有很大的差别。这个看情况用吧。

二、 GPU操作手册

1. 安装环境并测试

1.1安装pytorch

需要安装他们提供的pytorch,支持他们的DCU的:

  • 激活自己的环境:source acctivate 环境名
  • 安装torch: 直接像工程师询问应该装什么版本的pytorch,然后到pytorch【官网】找到对应的版本。按照官网给的指令即可。

1.2查看是否能够调用到DCU

  • 查看队列:whichpartition

  • 申请节点:salloc -p 队列名 -N 1 --gres=gpu:1

  • 根据申请到的节点登录节点:ssh 节点

  • 加载cuda (按照你的pytorch版本号)驱动 :module load apps/cuda/10.2

  • 激活环境:source acctivate 环境名

  • 执行如下语句验证:

     python
    
    import torch
    torch.cuda.is_available()
    torch.__version__
    
  • 登出节点 exit

2. 作业操作

2.1 提交作业

  • 首先,自己建立.sh作业提交脚本
  • 作业脚本模板:
    • 作业脚本中要加载驱动,但是并没有配置环境变量

    • 编辑文件:vi 文件名 (例如 vi fastrcnn.sh) 或者直接打开该文件

    • 曙光超算平台操作之深度学习_第2张图片

    • 通过sbatch 作业名.sh 提交(例如 sbatch fastrcnn.sh)

2.2查看作业

终端输入:squeue

2.3作业删除

终端输入:scancel 作业号 (作业号就是执行squeue,jobid下面的数字号码)

2.4实时查看输出

终端输入:tail -f 输出文件名(输出文件在和脚本文件在同一个目录下,终端输入字母ls或者ll就可以看见)

3. 测试总结

曲线拟合的很好,时间很快。能用这个还是用这个啊。

你可能感兴趣的:(深度学习,pytorch,人工智能)