OpenMMLab AI实战营第二天笔记

图像分类与基础视觉模型

卷积神经网络

AlexNet(2012)

  • 第一个成功实现大规模图像的模型,在 ImagNet 数据集上达到 ~85% 的 top-5 的准确率
  • 5 个卷积层,3 个全连接层,共有 60M 个可学习参数
  • 使用 ReLU 激活函数,大幅提高收敛速度
  • 实现并开源了 cuda-convnet ,在 GPU 上训练大规模神经网络在工程上成为可能。
    OpenMMLab AI实战营第二天笔记_第1张图片

Going Deeper(2012~2014)

OpenMMLab AI实战营第二天笔记_第2张图片

VGG(2014)

将大尺寸的卷积拆解为多层 3×3 的卷积
相同的感受野、更少的参数量、更多的层数和表达能力
OpenMMLab AI实战营第二天笔记_第3张图片
OpenMMLab AI实战营第二天笔记_第4张图片

GoogLeNet(Inception v1,2014)

OpenMMLab AI实战营第二天笔记_第5张图片

精度退化问题

模型层数增加到一定程度后,分类正确率不增反降
OpenMMLab AI实战营第二天笔记_第6张图片

实验的反直觉

OpenMMLab AI实战营第二天笔记_第7张图片
猜想:虽然深层网络有潜力达到更高的精度,但常规的优化算法难以找到这个更优的模型。即,让新增加的卷积层拟合一个近似恒等映射,恰好可以让浅层网络变好一点。

残差学习的基本思路

OpenMMLab AI实战营第二天笔记_第8张图片

残差网络ResNet(2015)

OpenMMLab AI实战营第二天笔记_第9张图片
OpenMMLab AI实战营第二天笔记_第10张图片
OpenMMLab AI实战营第二天笔记_第11张图片

ResNet 中的两种残差模块

OpenMMLab AI实战营第二天笔记_第12张图片

ResNet 是深浅模型的集成

等同于多模型集成残差网络有 (2) 个隐式的路径来连接输入和输出,每添加一个块会使路径数翻倍。
OpenMMLab AI实战营第二天笔记_第13张图片

更强的图像分类模型

神经结构搜索 Neural Architecture Search(2016+)

基本思路:借助强化学习等方法搜索表现最佳的网络。
代表工作:NASNet (2017)、MnasNet (2018)、EfficientNet (2019) 、RegNet (2020) 等。
OpenMMLab AI实战营第二天笔记_第14张图片

Vision Transformers(2020+)

使用 Transformer 替代卷积网络实现图像分类,使用更大的数据集训练,达到超越卷积网络的精度。
代表工作:Vision Transformer (2020),Swin-Transformer (2021 ICCV 最佳论文)。
OpenMMLab AI实战营第二天笔记_第15张图片

ConvNeXt(2022)

将 Swin Transformer 的模型元素迁移到卷积网络中,性能反超 Transformer.
OpenMMLab AI实战营第二天笔记_第16张图片

图像分类&视觉基础模型的发展

OpenMMLab AI实战营第二天笔记_第17张图片

轻量化卷积神经网络

后续继续学习后更新

Vision Transformers

后续继续学习后更新

模型学习

后续继续学习后更新

监督学习

后续继续学习后更新

学习率与优化器策略

后续继续学习后更新

数据增强

后续继续学习后更新

模型相关策略

后续继续学习后更新

自监督学习

后续继续学习后更新

MMClassification 介绍

后续继续学习后更新

参考文档

OpenMMLab AI实战营——02 图像分类与 MMClassification

你可能感兴趣的:(人工智能,深度学习,cnn,计算机视觉)