OpenMMLabAI实战营2 图像分类基础笔记

  1. 模型设计 卷积、Transformer
  2. 模型学习 监督学习 自监督

模型设计

CNN历史

AlexNet
VGG 5*5->2*3*3
GoogleNet 加层不如不加(反直觉)(同一层不同大小的卷积核)
ResNet残差网络 跨层连接 5级结构
basic block->bottleneck block
解释

  1. 等同多模型集成
  2. 使损失函数曲面更光滑
    借助强化学习搜索表现最佳的网络
    NASNet(17Google)
    Transformer(2020+)原应用于NLP
    ConvNeXt Swin Transformer的元素迁移到CNN中 性能反超Transfromer

轻量化CNN

可学习参数 卷积核+偏置值
参数量计算公式
C ′ × ( C × K × K + 1 ) = C ′ C K 2 + C ′ C^{\prime} \times(C \times K \times K+1)=C^{\prime} C K^{2}+C^{\prime} C×(C×K×K+1)=CCK2+C
乘加次数计算公式
H ′ × W ′ × C ′ × ( C × K × K ) = H ′ W ′ C ′ C K 2 H^{\prime} \times W^{\prime} \times C^{\prime} \times(C \times K \times K)=H^{\prime} W^{\prime} C^{\prime} C K^{2} H×W×C×(C×K×K)=HWCCK2
ResNet 1*1 卷积核压缩通道数 降低计算开销
可分离卷积 将常规卷积分解为逐层卷积(变大小)和逐点卷积(1*1变通道数) MoblieNet(17-19)
分组卷积 ResNeXt 分组卷积

Vision Transformers

不局限于领域(复杂度高) 卷积核的权重w=f(x)取决于输入x
Attention
OpenMMLabAI实战营2 图像分类基础笔记_第1张图片

Swin Transformer 分层结构 金字塔结构

模型学习

监督学习 Loss梯度下降寻找最优值
数据集标注昂贵 so
自监督学习

监督学习

权重初始化

  • 朴素方法 均匀方法或高斯分布
  • Kaiming 前传时维持激活值的方差,反传维持梯度的方差
  • Xavier
    微调调小学习率
    学习率退火
    按步长下降、按比例下降、按导数下降、按学习率升温,稳定训练的初始阶段
    Batch扩大学习率对应扩大多少倍
    多卡学习率对应乘以卡数
    早停防止过拟合
    EMA 训练末期在极小值附近周围转动

数据增强

几何变换、色彩变换、随机遮挡
组合图像
标签平滑

模型相关策略

Dropout 随机深度

自监督学习

基于代理任务 预测颜色
基于对比学习
SimCLR20同一图片裁剪相似,不同图像不同
基于掩码学习

你可能感兴趣的:(深度学习,计算机视觉)