通用视觉框架OpenMMLab图像分类与基础视觉模型
1.图像是像素构成的数组
2.图像的内容是像素整体呈现出的结果,和个别像素值没直接关联,难以遵循具体的规则设计算法
3.让机器从数据中学习,收集数据、定义模型、训练、预测
4.机器学习算法善于处理低维、分布相对简单的数据。图像数据在几十万维的空间中以复杂的方式"缠绕"在一起常规的机器学习算法难以处理这种复杂数据分布
5.传统方法:设计图像特征,方向梯度直方图在局部区域统计像素梯度的方向的分布,将图像映射成一个相对低维的特征向量,同时保留足够识别物体的信息
3.特征工程的天花板,受限于人类的智慧,手工设计特征更多局限在像素层面的计算,丢失信息过多,在视觉任务上的性能达到瓶颈
4.层次化特征的实现方式,卷积 实现一步特征提取 卷积神经网络,
a.特征和图像一样具有二维空间结构
b.后层特征为空间邻域内前层特征的加权求和
多头注意力 实现一步特征提取 Transformer
卷积神经网络
1.AlexNet (2012)
2.Going Deeper (2012~2014)
3.VGG (2014)
4.GoogLeNet (Inception v1, 2014)
5.精度退化问题,模型层数增加到一定程度后,分类正确率不增反降
6.残差学习的基本思路
残差建模:让新增加的层拟合浅层网络与深层网络之间的差异,更容易学习梯度可以直接回传到浅层网络监督浅层网络的学习没有引入额外参入,让参数更有效贡献到最终的模型中
7.残差网络 ResNet (2015)
更强的图像分类模型
1.神经结构搜索 Neural Architecture Search (2016+)
2.Vision Transformers (2020+)
3.ConvNeXt (2022)
轻量化卷积神经网络
1.卷积的参数量
2.卷积的计算量(乘加次数)
3.降低模型参数量和计算量的方法
4.GoogLeNet 使用不同大小的卷积核
5.ResNet 使用1×1卷积压缩通道数
6.可分离卷积
7.MobileNet V1/V2/V3 (2017~2019)
8.ResNeXt 中的分组卷积