OpenMMLab Day2 图像分类及基础视觉模型

图像分类与基础视觉模型

batchSize 对精度没有太大影响,但是影响收敛速度
少样本学习

模型设计

卷积神经网络

AlexNet、VGG、GoogleNet
残差学习:浅层网络、深层网络
OpenMMLab Day2 图像分类及基础视觉模型_第1张图片
OpenMMLab Day2 图像分类及基础视觉模型_第2张图片
两个残差模块:Basic block->Bottleneck block。 可以使损失曲面更平滑。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-11kidDJP-1675414736393)(https://cdn.nlark.com/yuque/0/2023/png/690791/1675412999684-c3db4ede-9308-4e92-bf54-a298800cc3ed.png#averageHue=%23faf9f9&clientId=u64b69903-0f85-4&from=paste&height=460&id=u0be4fb67&name=image.png&originHeight=690&originWidth=1438&originalType=binary&ratio=1&rotation=0&showTitle=false&size=188626&status=done&style=none&taskId=u53046e61-e28a-470a-9414-f8d26464dc4&title=&width=958.6666666666666)]
ResNet改进:
ResNet B/C/D: 残差模块的局部改进
ResNeXt:使用分组卷积,降低参数量

一些其他方向的分类模型:

  • 神经结构搜索
  • VIT
  • ConvNeXt

OpenMMLab Day2 图像分类及基础视觉模型_第3张图片

轻量化卷积神经网络

降低参数量和计算量

  • 降低通道数C’ C (平方级别)
  • 减小卷积核的尺寸K (平方级别)
卷积的参数

卷积核 + 偏置值
参数量计算公式:image.png
OpenMMLab Day2 图像分类及基础视觉模型_第4张图片

卷积的计算量

OpenMMLab Day2 图像分类及基础视觉模型_第5张图片

使用不同大小的卷积核:GoogleNet

并不是所有特征都需要同样大的感受野
OpenMMLab Day2 图像分类及基础视觉模型_第6张图片

使用1x1压缩通道数:ResNet

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FMD4XjzB-1675414736396)(https://cdn.nlark.com/yuque/0/2023/png/690791/1675413507623-c9ed1247-279f-4104-a1a4-2b05953430f0.png#averageHue=%23f9f8f8&clientId=u64b69903-0f85-4&from=paste&height=453&id=u2265b3c5&name=image.png&originHeight=680&originWidth=1192&originalType=binary&ratio=1&rotation=0&showTitle=false&size=181874&status=done&style=none&taskId=u5a1ec649-b54a-40ea-8e86-a5ef41c58af&title=&width=794.6666666666666)]

可分离卷积

将常规的卷积分解为逐层卷积和逐点卷积
OpenMMLab Day2 图像分类及基础视觉模型_第7张图片

Vision Transformers

注意力机制类别卷积,卷积中卷积核是固定的,注意力机制中的权重是根据数据动态计算出来的
OpenMMLab Day2 图像分类及基础视觉模型_第8张图片

优化:Swing Transformer

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QOTUswGH-1675414736398)(https://cdn.nlark.com/yuque/0/2023/png/690791/1675413729670-42eef16d-ea23-445a-90bd-8dd1398de3fd.png#averageHue=%23f2f0ee&clientId=u64b69903-0f85-4&from=paste&height=474&id=ufc6b53c1&name=image.png&originHeight=711&originWidth=1663&originalType=binary&ratio=1&rotation=0&showTitle=false&size=644984&status=done&style=none&taskId=ude5cf47c-2a11-4f2d-a296-e194398f1bc&title=&width=1108.6666666666667)]

模型学习

监督学习

OpenMMLab Day2 图像分类及基础视觉模型_第9张图片
交叉熵、优化目标、随机梯度下降–>参考Day1

自监督学习

学习率与优化器策略

权重初始化
OpenMMLab Day2 图像分类及基础视觉模型_第10张图片
学习率
OpenMMLab Day2 图像分类及基础视觉模型_第11张图片

学习率优化策略

退火Annealing

初始阶段使用较大学习率,损失函数稳定之后下降学习率

升温 warmup

前几轮学习率逐渐上升,直到预设的学习率,从而使训练初始阶段稳定

Linear Scaling Rule

结论:针对同一个训练任务,当batch size 扩大为原来的K倍时,学习率也对应扩大K倍
**直观理解:**这样做可以保证平均每个样本带来的梯度下降步长相同
实践中,假设预训练模型使用 lr=0.1,8卡数据并行训练,如果希望用1卡复现实验,lr 应设置为 0.0125

自适应梯度算法

不同的参数需要不同的学习率,根据梯度的历史幅度自动调整学习率

正则与权重衰减

OpenMMLab Day2 图像分类及基础视觉模型_第12张图片

早停

权重平均:EMA

OpenMMLab Day2 图像分类及基础视觉模型_第13张图片

模型权重平均:Stochastic Weight Averaging

OpenMMLab Day2 图像分类及基础视觉模型_第14张图片

数据增强

变换

OpenMMLab Day2 图像分类及基础视觉模型_第15张图片

组合数据增强

OpenMMLab Day2 图像分类及基础视觉模型_第16张图片

组合图像

OpenMMLab Day2 图像分类及基础视觉模型_第17张图片

标签平滑

**动机:**类别标注可能错误或不准确,让模型最大限度拟合标注类别可能会有碍于泛化性
**做法:**引入平滑参数 ,降低标签的"自信程度" 引入平滑参数 ,降低标签的"自信程度"

模型相关策略

丢弃层:Dropout

OpenMMLab Day2 图像分类及基础视觉模型_第18张图片

随机深度: Stochastic Depth

OpenMMLab Day2 图像分类及基础视觉模型_第19张图片

你可能感兴趣的:(训练营,深度学习,计算机视觉,cnn,分类)