图像:像素构成的数组
视觉任务的难点:图像的内容是像素整体呈现出的结果,和个别像素的值没有直接关联,难以遵循具体的规则设计算法
解决:让机器从数据中学习
机器学习的局限:机器学习算法善于处理低维、分布相对简单的数据,常规的机器学习算法难以处理图像这种复杂的数据分布
特征工程:通过变换或合并问题的原始特征,使其帮助算法更简单地做出准确的预测
特征学习:学习如何产生适合分类的特征,多个简单特征变换复合构成一个复杂的端到端的分类器
AlexNet (2012)
VGG-19
VGG (2014)
将大尺寸卷积拆解为多层3 x 3的卷积
相同的感受野、更少的参数量、更多的层数和表达能力
GoogLeNet (Inception v1, 2014)
精度退化问题:模型层数增加到一定程度后,分类正确率不增反降
残差网络 ResNet
层次化特征
卷积
注意力机制
多头注意力:使用不同参数的注意力头产生多组特征,沿通道维度拼接得到最终特征,Transformer Encoder 的核心模块
机器学习详细笔记
流程
交叉熵损失 Cross-Entropy Loss
针对神经网络,若损失函数为非凸函数,通常采用随机梯度下降算法求解
动量
学习率对训练的影响
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JVOJvIzS-1675404055241)(https://microsoft.github.io/ai-edu/%E5%9F%BA%E7%A1%80%E6%95%99%E7%A8%8B/A2-%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E5%9F%BA%E6%9C%AC%E5%8E%9F%E7%90%86/%E7%AC%AC5%E6%AD%A5%20-%20%E9%9D%9E%E7%BA%BF%E6%80%A7%E5%88%86%E7%B1%BB/img/12/learning_rate.png)]
学习率策略
经验:针对同一个训练任务,当 batch size 扩大为原来的 倍时,学习率也应对应扩大 倍
早停:当验证集的分类精度 达到最值时,停止训练,防止过拟合
图像可以通过简单的变换产生一系列"副本",扩 充训练数据集
组合图像
标签平滑
丢弃层 Dropout
随机深度 Stochastic Depth
MMClassification文档
GitHub地址