【OpenMMLab 2023 Course】Lecture2

计算机视觉之图像分类算法基础

  • 图像分类任务介绍
  • 卷积神经网络
  • 轻量化卷积神经网络
  • Vision Transformers
  • 模型学习
  • 监督学习
  • 学习率与优化器策略
  • 数据增强
  • 模型相关策略
  • 自监督学习
  • MMClassification介绍

图像分类任务介绍

  • 受限于人类的智慧,手工设计特征更多局限在像素层面的计算,丢失信息过多,在视觉任务上的性能达到瓶颈

层次化特征的实现方式

  • 卷积 - CNN
  • 多头注意力 - Transformer

卷积神经网络

  • AlexNet
  • VGG
  • GoogLeNet
  • ResNet:残差建模,解决了精度退化问题
  • NAS相关网络
  • ViT
  • ConvNeXt

轻量化卷积神经网络

卷积的参数量计算: C ′ × ( C × K × K + 1 ) C' \times (C\times K\times K + 1) C×(C×K×K+1)
卷积乘加次数计算: H ′ × W ′ × C ′ × ( C × K × K ) H'\times W'\times C' \times (C\times K\times K) H×W×C×(C×K×K)

因此,通过降低通道数和减小卷积核的尺寸,都可以实现轻量化

  • 使用不同大小的卷积核
    • Inception:并不是所有特征都需要同样大的感受野,在同一层中混合使用不同尺寸的特征可以减少参数量
  • 使用1x1卷积压缩通道数
  • 逐层卷积和逐点卷积
  • 分组卷积

Vision Transformers

  • QKV: Multi-head Self-Attention
  • Swin Transformer: Hierarchical Transformer
    • 将 Multi-Head Self-Attention 计算限制在划分的窗口内,减少计算量
    • Shifted Windows Multi-Head Self-Attention:使信息能够跨窗口传递

模型学习

  • 监督学习
  • 自监督学习
    • 让模型在无标注数据集上学习好的特征,再把模型放在较小的标注数据集上训练分类

监督学习

学习率与优化器策略

  • 权重初始化
  • 学习率调整策略
    • 退火、升温、Linear Scaling Rule(与batch size同等缩放)
  • 正则化与权重衰减
  • Early Stopping
  • 模型权重平均EMA

数据增强

  • 组合数据增强:AutoAugment、RandAugment
  • 组合图像
  • 标签平滑:类别标注可能错误或不准确,让模型最大限度拟合标注类别可能会有碍于泛化性

模型相关策略

  • Dropout
  • 随机深度

自监督学习

基于无标注的数据学习

  • Relative Location:模型只有很好地理解到图片内容,才能够预测图像块之间的关系
  • SimCLR:如果模型能很好地提取图片内容的本质,那么无论图片经过什么样的数据增强操作,提取出来的特征都应该极为相似
  • Masked autoencoders:模型只有理解图片内容、掌握图片的上下文信息,才能恢复出图片中被随机遮挡的内容

MMClassification介绍

图像分类模型的构成

  • 图片-骨干网络-颈部(如全局平均池化)-分类头(线性全连接层+softmax)-类别概率

你可能感兴趣的:(OpenMMLab,2023,Course,深度学习,计算机视觉,神经网络)