OpenMMLAB AI实战营第一课笔记

卷积神经网络介绍

AlexNet (2012)

OpenMMLAB AI实战营第一课笔记_第1张图片

  • 第一个成功实现大规模图像的模型,在ImageNet 数据集上达到~85% 的top-5 准确率
  • 5 个卷积层,3 个全连接层,共有60M 个可学习参数
  • 使用ReLU 激活函数,大幅提高收敛速度
  • 实现并开源了cuda-convnet ,在GPU 上训练大规模神经网络在工程上成为可能

Going Deeper (2012~2014)

OpenMMLAB AI实战营第一课笔记_第2张图片

VGG (2014)

OpenMMLAB AI实战营第一课笔记_第3张图片

GoogLeNet (Inception v1, 2014)

OpenMMLAB AI实战营第一课笔记_第4张图片

残差网络ResNet (2015)

OpenMMLAB AI实战营第一课笔记_第5张图片

更强的图像分类模型

神经结构搜索Neural Architecture Search (2016+)

基本思路:借助强化学习等方法搜索表现最佳的网络
代表工作:NASNet (2017)、MnasNet (2018)、EfficientNet (2019) 、RegNet (2020) 等

Vision Transformers (2020+)

OpenMMLAB AI实战营第一课笔记_第6张图片
使用Transformer 替代卷积网络实现图像分类,使用更大的数据集训练,达到超越卷积网络的精度
代表工作:Vision Transformer (2020),Swin-Transformer (2021 ICCV 最佳论文)

ConvNeXt (2022)

OpenMMLAB AI实战营第一课笔记_第7张图片
将Swin Transformer 的模型元素迁移到卷积网络中,性能反超Transformer

图像分类& 视觉基础模型的发展

OpenMMLAB AI实战营第一课笔记_第8张图片

Swin Transformer (ICCV 2021 best paper)

OpenMMLAB AI实战营第一课笔记_第9张图片

  • Vision Transformer 的特征图是是直接下采样16 倍
    得到的,后面的特征图也是维持这个下采样率不变,
    缺少了传统卷积神经网络里不同尺寸特征图的层次化
    结构。所以,Swin Transformer 提出了分层结构
    (金字塔结构)Hierarchical Transformer。

  • 同时,相对于Vision Transformer 中直接对整个特征
    图进行Multi-Head Self-Attention,Swin
    Transformer 将特征图划分成了多个不相交的区域
    (Window),将Multi-Head Self-Attention 计算
    限制在窗口内,这样能够减少计算量的,尤其是在浅
    层特征图很大的时候。

  • 由于将Multi-Head Self-Attention 计算限制在窗口内,窗口与窗口之间无法进行信息传递。所以, Swin
    Transformer 又提出了Shifted Windows Multi-Head Self-Attention (SW-MSA) 的概念,即第 + 1 层的窗
    口分别向右侧和下方各偏移了半个窗口的位置。那么,这就让信息能够跨窗口传递。
    OpenMMLAB AI实战营第一课笔记_第10张图片

  • 通过4 个Stage 构建不同大小的特征图

  • 重复堆叠Swin Transformer Block:这里的Block 有两种结构,如图(b) ,一个使用了W-MSA 结
    构,一个使用了SW-MSA 结构。这两个结构成对使用,所以堆叠Swin Transformer Block 的个数
    都是偶数。
    OpenMMLAB AI实战营第一课笔记_第11张图片

MMClassification 介绍

代码仓库:https://github.com/open-mmlab/mmclassification
文档教程:https://mmclassification.readthedocs.io/en/latest/
OpenMMLAB AI实战营第一课笔记_第12张图片

你可能感兴趣的:(机器学习,人工智能,深度学习,计算机视觉)