OpenMMLab AI实战营笔记(二)-图像分类与基础视觉模型

图像分类与基础视觉模型

1.什么是图像分类

1.1 任务目标

  • 数学表示
  • 任务的难点
  • 机器学习方法
    • 收集数据
    • 定义模型
    • 训练
    • 预测
    • 机器学习善于处理低维、分布简单的数据,对于图像这类几十万维的空间缠绕的复杂分布数据力不从心
    • ImageNet–特征工程的天花板
  • 层次化特征的实现方式
    • 卷积
    • 多头注意力 Transformer
  • AlexNet的诞生 深度学习时代的开始

2.卷积神经网络

2.1 卷积神经网络的发展

  • AlexNet->VGGNet->GoogLeNet
  • 精度退化问题

2.2 残差学习的基本思路

  • 残差网络 ResNet
  • 残差网络中的两种模块
    • Basic Block
    • Bottleneck Block
  • ResNet的成就和影响力
    • ResNet是深浅模型的集成
    • 残差链接让损失曲面更平滑
    • ResNet的后续改进

3.更强的图像分类模型

  • 神经结构搜索Neural Architecture Search
  • Vision Transformers
  • ConvNeXt

4.轻量化卷积神经网络

4.1 卷积的参数量

OpenMMLab AI实战营笔记(二)-图像分类与基础视觉模型_第1张图片

4.2 卷积的计算量

OpenMMLab AI实战营笔记(二)-图像分类与基础视觉模型_第2张图片

4.3 降低模型参数量和计算量的方法

  • 降低通道数C’和C---------ResNet
  • 减小卷积核的尺寸K------GoogLeNet
  • 可分离卷积-----将常规卷积分解为逐层卷积逐点卷积------MobileNet
  • 分组卷积—ResNeXt

5.Vision Transformers

5.1 注意力机制 Attention Mechanism

5.2 实现Attention

5.3 多头注意力 Multi-head(Self-)Attention

5.4 Vision Transformer

6.模型学习

6.1 模型的学习范式

  • 监督学习

OpenMMLab AI实战营笔记(二)-图像分类与基础视觉模型_第3张图片

  • 交叉熵损失

  • 优化目标&随机梯度下降

  • 权重初始化

  • 学习率 退火 升温

OpenMMLab AI实战营笔记(二)-图像分类与基础视觉模型_第4张图片

6.2 模型增强

将图像副本用于训练,扩充训练数据集

  • 组合数据增强

  • 组合图像

  • 标签平滑

    模型相关策略

    丢弃层 Dropout

    随机深度 Stochastic Depth

6.3 自监督学习

OpenMMLab AI实战营笔记(二)-图像分类与基础视觉模型_第5张图片

  • 基于代理任务
  • 基于对比学习
  • 基于掩码学习

7.MMClassification介绍

OpenMMLab AI实战营笔记(二)-图像分类与基础视觉模型_第6张图片

代码仓库

文档教程

7.1 Python推理API

7.2 环境搭建

7.3 配置文件

7.4 预训练模型库

https://mmclassification.readthedocs.io/en/latest/modelzoo_statistics.html

你可能感兴趣的:(人工智能,分类,深度学习)