【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型

图像分类与基础视觉模型

  • 图像分类
  • 模型设计
    • 卷积神经网络
    • 轻量化卷积神经网络
    • Vision Transformers
  • 模型学习
    • 监督学习
    • 自监督学习
    • 数据增强

图像分类

模型设计

卷积神经网络

  • AlexNet (2012)
  • Going Deeper (2012~2014):VGG (2014)、GoogLeNet (Inception v1, 2014)
  • 残差网络 ResNet (2015)
  • ResNet 的后续改进【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第1张图片
  • 神经结构搜索 Neural Architecture Search (2016+):NASNet (2017)、 MnasNet (2018)、 EfficientNet (2019) 、 RegNet (2020) 等,借助强化学习等方法搜索表现最佳的网络
  • Vision Transformers (2020+):Vision Transformer (2020), Swin-Transformer (2021 ICCV 最佳论文),使用 Transformer 替代卷积网络实现图像分类,使用更大的数据集训练,达到超越卷积网络的精度
  • ConvNeXt (2022):将 Swin Transformer 的模型元素迁移到卷积网络中,性能反超 Transformer

图像分类 & 视觉基础模型的发展
【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第2张图片

轻量化卷积神经网络

  • GoogLeNet 使用不同大小的卷积核
  • ResNet 使用1×1卷积压缩通道数
  • 可分离卷积
    【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第3张图片
  • MobileNet V1/V2/V3 (2017~2019):MobileNet V1 使用可分离卷积,只有 4.2M 参数,MobileNet V2/V3 在 V1 的基础上加入了残差模块和 SE 模块
  • ResNeXt 中的分组卷积【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第4张图片

Vision Transformers

  • 注意力机制 Attention Mechanism
    【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第5张图片
  • 实现Attention
    【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第6张图片
  • 多头注意力 Multi-head (Self-)Attention
    【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第7张图片
  • Vision Transformer (2020)
    • 将图像切分成若干 16×16 的小块,当作一列"词向量",经多层 Transformer Encoder 变换产生特征
    • 图块之外加入额外的 token,用于 query 其他 patch 的特征并给出最后分类
    • 注意力模块基于全局感受野,复杂度为尺寸的 4 次方
      【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第8张图片
  • Swin Transformer (ICCV 2021 best paper)
    【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第9张图片
    【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第10张图片
    【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第11张图片

模型学习

监督学习

基于标注数据学习【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第12张图片

自监督学习

基于无标注的数据学习【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第13张图片

  • 常见类型【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第14张图片
  • Relative Location (ICCV 2015)【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第15张图片
  • SimCLR (ICML 2020)【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第16张图片
  • Masked autoencoders (MAE, CVPR 2022)【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第17张图片

数据增强

  • 组合数据增强
    【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第18张图片
  • 组合图像 Mixup & CutMix
    【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第19张图片
  • 标签平滑 Label Smoothing
    【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型_第20张图片

你可能感兴趣的:(OpenMMLab,分类,深度学习,计算机视觉,python,开源)