超算云服务深度学习环境配置Pytorch1.6+CUDA10.2+DGL0.4.3

超算云服务深度学习环境配置

  • 登录超算云服务
  • 连接服务器
    • 1. 通过SSH连接服务器
    • 2. 通过第三方软件连接服务器(Xshell)
  • 配置深度学习环境
    • 1. 查看服务器已安装模块
    • 2. 调用Anaconda模块
    • 3. 创建Python3.7的虚拟环境
    • 4. 虚拟环境下安装CUDA10.2+Pytorch1.6.0
    • 5. 虚拟环境下安装CUDA版本的DGL
      • 方法1. 从[DGL官网](https://www.dgl.ai/pages/start.html)查询对应命令
      • 方法2. 从镜像网站本地安装
    • 6. 虚拟环境下继续安装其他依赖包

最近在用并行超算云服务器(北京超级云计算中心,宁夏超级云计算中心)搭建Pytorch1.6+CUDA10.2+DGL0.4.3的深度学习实验环境,这里记录一下。

登录超算云服务

根据注册时获得的账号和密码,使用网页版或下载客户端登录账号。
超算云服务深度学习环境配置Pytorch1.6+CUDA10.2+DGL0.4.3_第1张图片

连接服务器

我这里尝试了2种连接服务器的方式,SSH和第三方软件(Xshell)

1. 通过SSH连接服务器

点击桌面SSH图标,显示当前账号可访问的云服务器,点击想要连接的服务器。
超算云服务深度学习环境配置Pytorch1.6+CUDA10.2+DGL0.4.3_第2张图片
超算云服务深度学习环境配置Pytorch1.6+CUDA10.2+DGL0.4.3_第3张图片
显示当前页面表明服务器连接成功。

2. 通过第三方软件连接服务器(Xshell)

前提:计算机本地已安装Xshell。
本人平时连接服务器习惯用XShell,主要原因是Xshell配套的Xftp方便服务器和本地文件的传输。

从应用中心安装Xshell。选择应用中心->超算云服务->Xshell申请使用
由于我这里已经安装完成,所以显示卸载。如果未安装则显示申请使用。
超算云服务深度学习环境配置Pytorch1.6+CUDA10.2+DGL0.4.3_第4张图片
安装完成后桌面会显示Xshell图标。第一次进入Xshell会让选择文件路径,此时需要选择本地计算机的Xshell.exe将云服务器与本地Xshell连接起来。
超算云服务深度学习环境配置Pytorch1.6+CUDA10.2+DGL0.4.3_第5张图片
绑定后,点击Xshell图标则会唤醒本地Xshell应用,并自动连接云服务器。这里可能会询问是否确认连接服务器,输入yes即可连接到服务器,其他的Xftp等服务均可正常使用。
超算云服务深度学习环境配置Pytorch1.6+CUDA10.2+DGL0.4.3_第6张图片

配置深度学习环境

1. 查看服务器已安装模块

在SSH或Xshell终端输入命令module avail
踩过的坑:如果输入module avail显示command module not found,则先输入source path/path/module.sh(一般这里路径会在连接服务器时有提示),再输入module avail。通常服务器已经预先装好anaconda,cuda等常用环境。

[your@account ~]$ module avail

------------------------------ /usr/share/Modules/modulefiles -------------------------------
dot         module-git  module-info modules     null        use.own

---------------------------------- /data/apps/modulefiles -----------------------------------
alphafold/2.0.0
alphafold/2.0.0_20210827
alphafold/2.0.1
alphafold/2.1.1
amber/AmberTools21_openmpi_nccl
anaconda/2020.11

2. 调用Anaconda模块

module load anaconda/2020.11

3. 创建Python3.7的虚拟环境

conda create -n myname python=3.7

4. 虚拟环境下安装CUDA10.2+Pytorch1.6.0

sources activate myname
conda install pytorch==1.6.0 torchvision==0.7.0 cudatoolkit=10.2 -c pytorch
#速度太慢,安装了除pytorch以外的所有包
pip install torch==1.6.0 torchvision==0.7.0
#安装成功,但通过print(torch.cuda.is_available())返回False,认为未安装对应CUDA(后来想起也可能是因为未向云服务器请求分配GPU的原因)

尝试向Anaconda添加清华镜像源,加快pytorch下载速度

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud//pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --set show_channel_urls yes

重新用conda安装pytorch

conda install pytorch==1.6.0 torchvision==0.7.0 cudatoolkit=10.2

安装成功,利用torch.cuda.is_available()检查cuda是否可用,返回True则证明可用。注:此处记得先向云服务器申请GPU设备再检测。

5. 虚拟环境下安装CUDA版本的DGL

方法1. 从DGL官网查询对应命令

可以指定dgl版本,从这里查看dgl版本名称

conda install -c dglteam dgl-cuda10.2==0.4.3post2

方法2. 从镜像网站本地安装

点击这里寻找与cuda版本对应的dgl包
将下载的包放在合适文件夹下,终端进入该文件夹,安装DGL包

cd ./archive
pip install dgl_cu102-0.4.3.post2-cp37-cp37m-manylinux1_x86_64.whl

超算云服务深度学习环境配置Pytorch1.6+CUDA10.2+DGL0.4.3_第7张图片
安装成功。

6. 虚拟环境下继续安装其他依赖包

conda install numpy=1.17 #(高版本numpy与mxnet冲突)
conda install scikit-learn
conda install pandas
conda install matplotlib
conda install tqdm

至此,我所需要的所有深度学习模型环境已经配齐,接下来就可以上传代码跑实验啦!

你可能感兴趣的:(环境配置,深度学习,服务器,pytorch)