计算机视觉(二)图像分类

目录

一、图像分类

难点:对问题的拆解

目前流行的图像分类方法

分类器设计与学习

图像表示

分类器

损失函数

优化算法

训练过程

评价指标


一、图像分类

图像分类:核心任务,根据图像信息中的不同特征,对图像进行分类。从已知的类别标签集合中为给定的输入图片选定一个类别标签。

应用:软件识图

难点:对问题的拆解

  1. 语义到像素的映射:像素是底层的用字节表示,语义是高层的
  2. 视角:人脸正面与侧面
  3. 光照:光线变化
  4. 尺度:尺度大小是相对的,自适应远近
  5. 遮挡:
  6. 形变:猫
  7. 背景杂波:物体的颜色与背景的颜色相似
  8. 类内形变:凳子
  9. 运动模糊:曝光时间问题,硬件上做高速,软件上做算法去恢复模糊的部分,根据运动的规律
  10. 类别繁多:传送带,摄像机的角度

基于规则的方法是否可行:

  • 通过硬编码的方法识别:把人的理解编成代码,基于统计的方法提取边缘,对比角点的信息 --> 困难

目前流行的图像分类方法

  • 使用数据驱动的图像分类范式:
  1. 数据集构建:使用数据和标签的集合,分为有监督和无监督
  2. 分类器设计与学习:从数据中使用数学模型(分类器)归纳出规律,填充数学模型中的未知元素
  3. 分类器决策:对未知图像进行决策

分类器设计与学习

1. 训练阶段:

计算机视觉(二)图像分类_第1张图片

  • 图像表示:3维矩阵,如何让分类模型接受
  • 分类模型:对新图像进行预测
  • 预测值:用于与真实值进行比较
  • 损失函数:使用损失函数计算出损失值
  • 损失值:根据损失值判断当前模型好不好
  • 优化算法: 如果当前模型不好,靠优化算法更新模型的参数,调整参数使得损失值小

2. 预测阶段:

  • 决策:当损失值达到最小,就可以用这个模型解决真实问题

计算机视觉(二)图像分类_第2张图片

图像表示

  • 像素表示
  1. 全局特征表示GIST:从图像中抽取频率表示,不适合遮挡类的细致问题,适合风景类,建筑类
  2. 局部特征表示SIFT:解决细节问题,从图像中抽取有特殊意义的区块,适合人脸识别

分类器

  • 近邻
  • 贝叶斯
  • 线性*
  • 支持向量机:是线性分类的一个扩展
  • 神经网络*
  • 随机森林
  • Adaboost

损失函数

度量真实值和预测值之间的不一致程度

  • 0-1损失
  • 多类支持向量机损失
  • 交叉熵损失
  • L1损失
  • L2损失

优化算法

根据损失值调整参数,从而降低损失值

  • 一阶迭代优化方法:
  1. 梯度下降*
  2. 随机梯度下降*
  3. 小批量梯度下降*
  • 二阶迭代优化方法:
  1. 牛顿法*
  2. BFGS
  3. L-BFGS

训练过程

  • 数据集划分
  • 数据预处理
  • 数据增强:旋转,裁剪等,增加样本
  • 欠拟合与过拟合:
  1. 减小算法复杂度
  2. 使用权重正则项
  3. 使用droput正则化
  • 超参数调整:模型设计阶段要指定的参数,如神经元个数,神经网络的层数
  • 模型集成:多个模型让训练结果更好

评价指标

  • 正确率Accuracy:分类正确的样本数/总样本数
  1. TOP1:只判断第一个标签是否预测正确
  2. TOP5:五个预测中只要有一个预测正确就是正确
  • 错误率ErrorRate:1 - 正确率 

你可能感兴趣的:(计算机视觉,计算机视觉,分类,机器学习)