mmlab寒假实战营day2

mmlab寒假实战营 day2

注:本博客仅用于个人上课随手笔记

计算机视觉之图像分类算法介绍

一、上课笔记

1.传统学习图像特征方法

使用方向梯度直方图来学习,将图像通过人工算法转为特征向量,进而转换为预测类别

特征工程(直接计算)到特征学习(可以学习的参数)

2.神经网络分类模型

经典模型:Alexnet(开山),vgg,resnet(2016CVPR bestpaper)

神经结构搜索:通过强化学习的方法来搜寻最佳的网络结构。

Vision Transformer:对比传统卷积,他需要使用更大数据集进行训练,达到超越卷积神经网络的精度。

轻量化卷积神经网络

使用不同尺寸的卷积核,使用1 *1 卷积核压缩通道数,降低计算开销

可分离卷积,逐层卷积+逐层累加,如mobilenet

分组卷积,使得只有组内的神经元有信息交换,而非传统卷积的全连接

VIT

注意力机制

mmlab寒假实战营day2_第1张图片

可以显式建模远距离的关系

代表性模型:Swin Transformer

模型学习的范式

自监督学习,让模型在无标注数据集上学习好的特征

监督学习:标注数据集,定义损失函数,衡量结果好坏,如CE交叉熵损失函数。

确定优化目标后,对于神经网络可采用随机梯度下降的算法sgd。

基于梯度下降训练的流程

mmlab寒假实战营day2_第2张图片

训练也有技巧:

比较重要是:学习率和优化器策略。

1.权重初始化(如kaiming init),也可使用预训练模型

2.学习率,开始可以用0.01-0.1的学习率,微调一般用 0.01-0.001.学习率可以随着训练下降,学习率退火。和退火对应也有升温,前几轮学习率逐渐上升,直到预设的学习率。

线性扩展原则:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GhHX7noa-1675420207089)(https://yuan-1314071695.cos.ap-nanjing.myqcloud.com/imgimage-20230202204445575.png)]

数据增强

通过几何变换,色彩变换,随机遮挡以低成本来生成更多训练数据。这些增强方法也可以进行组合。

或者在多张图片上做mixup(逐像素混合),cutmix(遮盖原图用另一个代替)

标签平滑

原因(motivation):类别标注可能错误或者不准确,让模型最大限度拟合标注类别可能会有碍于泛化性能。

做法,可以应用平滑参数,降低标签的“自信”度。

模型相关策略:dropout

自监督学习常见类型:

1.基于代理任务

2.基于对比学习

3.基于掩码学习(transformer适合)2022MAE

二、课后疑问

可分离卷积相比较常规卷积,会丢失哪些信息呢?

你可能感兴趣的:(深度学习,计算机视觉,神经网络)