人工构造特征工程已然过去,丢失信息大,准度低
机器学习适合低维简单数据,高维数据难以处理(eg.瑞士卷分布)
方向梯度直方图可以将将图像映射成一个相对低维的特征向量,同时保留足够识别物体的信息。
深度学习数据特征为主流,从AlexNet开始超越人类,开启深度学习时代
VGG
定义了结构块方便使用
一个真理:大卷积核拆分为多个小卷积核可以在相同感受野下用更少的参数获得更多的层数和表达能力
层的深入不断倍增通道数、减半分辨率,提取更抽象等级特征
ResNet——CVPR2016best
引出了残差块的思想,解决以往深度不增加甚至降低效果的问题
等同于多模型集成:残差网络有 (2) 个隐式的路径来连接输入和输出,每添加一个块会使路径数翻倍
Loss Surface 更加平滑,更容易收敛到局部/全局最优解
神经结构搜索 Neural Architecture Search
基本思路:借助强化学习等方法搜索表现最佳的网络
代表工作: NASNet (2017)、 MnasNet (2018)、 EfficientNet (2019) 、 RegNet (2020) 等
Vision Transformers (2020+)
基本思想:使用 Transformer 替代卷积网络实现图像分类,使用更大的数据集训练,达到超越卷积网络的精度
代表工作: Vision Transformer (2020), Swin-Transformer (2021 ICCV 最佳论文)
ConvNeXt (2022)
Swin Transformer 的模型元素迁移到卷积网络中,性能反超 Transformer
原理:
降低通道数 ′ 和 (平方级别)
减小卷积核的尺寸 (平方级别)
方法:
GoogLeNet 使用不同大小的卷积核:并不是所有特征都需要同样大的感受野,在同一层中混合使用不同尺寸的特征可以减少参数量
ResNet 使用1×1卷积压缩通道数C
常规卷积分解为逐层卷积和逐点卷积,降低参数量和计算量
ResNeXt 将 ResNet 的 bottleneck block 中 3×3 的卷积改为分组卷积,降低模型计算量。可分离卷积为分组卷积的特殊情形,组数=通道数