北京超级云计算GPU服务器的使用教程

北京超级云计算中心(北京超算云)是一个很不错的训练深度学习模型的平台(主要是可以白嫖200元的GPU算力资源),官网连接。申请账号现在应该还送200元(我申请使用的是GPU服务器)。在官网中填写申请信息,然后等着客户经理给你打电话,然后把你的需求说清楚,第二天就能拿到账号了!!
注意:注册好的账号和平台使用说明,会通过邮箱发送给你。

一、拿到账号之后,开始进行如下操作:
①在官网下载并安装PC客户端,安装好并登录自己的账号,如图所示
北京超级云计算GPU服务器的使用教程_第1张图片

②点击SSH软件登陆——>点击 连接
北京超级云计算GPU服务器的使用教程_第2张图片

③出现此界面表示登陆成功。(此界面开头的一段文字简单的告诉了用户北京超算云的使用规则)
北京超级云计算GPU服务器的使用教程_第3张图片

二、上传需要训练的模型的文件夹
①首先先要在自己的电脑上将代码都编写好,我个人使用的是YOLOv5_5.0的版本进行训练的,那就以它为例子进行讲解了。
北京超级云计算GPU服务器的使用教程_第4张图片

②打开winscp软件,进行文件传输,将本地电脑上准备训练的代码、数据集等文件夹上传到超算云的服务器中(涉密数据集尽量不要传)
北京超级云计算GPU服务器的使用教程_第5张图片
连接上去之后的界面:
北京超级云计算GPU服务器的使用教程_第6张图片
此时要注意右边界面的路径,一定要点进去run文件夹里面,然后再进行文件传输,传输完的效果如下:
北京超级云计算GPU服务器的使用教程_第7张图片

三、编写训练脚本(.sh类型的)
这个根据每个人的模型的不同而不同,可以请平台的工程师替你编写一个。
以我的为例:

#!/bin/bash
module load anaconda/2020.11
module load cuda/11.4
source activate torch1.10
export PYTHONUNBUFFERED=1
python train.py


四、进行模型的训练
①首先安装自己要训练模型的依赖库(打开超算云桌面上的SSH,在SSH界面中安装)
还是以YOLOv5_5.0为例子
1、加载 anaconda/2020.11。
module load anaconda/2020.11
2、创建一个名为torch.10(名字可以自己起,必须是英文的)的虚拟环境,python使用3.8的版本。
conda creat -n torch1.10 Python=3.8
3、创建完成后,激活虚拟环境(后续的操作都是在该虚拟环境下进行的)
先查看已经安装的环境
conda env list (得到的输出,带*号的代表目前激活的环境)
使用 source activate torch1.10 (激活刚才创建的虚拟环境)
4、根据模型的依赖库 自己安装即可
yolov5_5.0所需的环境:

pip install -r requirements.txt

base ----------------------------------------

matplotlib>=3.2.2
numpy>=1.18.5
opencv-python>=4.1.2
Pillow
PyYAML>=5.3.1
scipy>=1.4.1
torch>=1.7.0
torchvision>=0.8.1
tqdm>=4.41.0

logging -------------------------------------

tensorboard>=2.4.1

wandb

plotting ------------------------------------

seaborn>=0.11.0
pandas

export --------------------------------------

coremltools>=4.1

onnx>=1.8.1

scikit-learn==0.19.2 # for coreml quantization

extras --------------------------------------

thop # FLOPS computation
pycocotools>=2.0 # COCO mAP

五、开始训练
打开超算云的SSH软件,依次输入以下命令

module load anaconda/2020.11
conda env list
source activate torch.10
cd 所在文件夹路径 (我的就是:cd /data/run01/scz1352/YOLOv5-5.0)
sbatch --gpus=1 ./sub.sh

然后就可顺利训练了

你可能感兴趣的:(软件使用中的技巧和踩坑,深度学习)