OpenMMLabAI实战营3 图像分类代码实战与超算平台介绍笔记

训练过程

Dataloader 加载数据
Transform 数据预处理
定义模型
to(device)
优化器
前传,计算loss,bakwark,优化器step
torch.save 保存参数为pth
使用时model.load_state_dict

配置文件

  • 模型结构
  • 数据集
  • 训练策略
  • 运行时
  • 一些辅助功能

推理

pipeline 模型丛加载到训练完成的一个网络 Compose进行构建
初始化模型
init_model
图像分类模型的构成
图片-骨干网络->特征图-颈部->特征向量-分类头->概率类别

训练

修改config

load_from 模型加载路径
data
type CustomDataset
data_prefix 数据位置

输入大小固定的原因是有全连接层,像ResNet等用全局平均池化进行替代,可以兼容任意图像输入

北京超算

run 有300G空间
module avail 查看可用module
module load anaconda/xx选择anaconda环境,可重复load
cu11.1 torch 1.10.x mmcv 1.7

export PYTHONUNBUFFERED=1 # 清缓存

sbatch --gpus=1 run.sh提交作业
parajobs作业运算详情
tail -f slurm-282136.out作业实时输出

你可能感兴趣的:(深度学习)