计算机视觉与深度学习 学习笔记【一】 图像分类

目录

  • 图象分类
    • 1.难点
      • 1.1 语义鸿沟
      • 1.2 视角
      • 1.3 光照
      • 1.4 尺度
      • 1.5 遮挡
      • 1.6 形变
      • 1.7 背景杂波
      • 1.8 类内形变
      • 1.9 运动模糊
      • 1.10 类别繁多
    • 2.规则的方法可行性探究
      • 2.1 硬编码(通过人来总结规律)
    • 3.数据驱动的图像分类范式
      • 3.1 数据集构建
        • 3.1.1 有监督任务(主要)
        • 3.1.2 无监督任务(次要)
      • 3.2 分类器的设计与学习(核心步骤)
      • 3.3 分类器决策
    • 4. 分类器学习环节
      • 4.1 图象表示
        • 4.1.1 像素表示(在神经网络中占绝对主流)
        • 4.1.2 全局特征表示(如GIST)
        • 4.1.3 局部特征表示(如SIFT+词袋模型)
      • 4.2 分类模型
        • 例:
      • 4.3损失函数
      • 4.4优化算法
      • 5.5 模型参数
      • 5.6 训练过程
      • 5.7决策环节
    • 6. 常用的分类任务评价指标
      • 6.1 top1与top5指标

图象分类

1.难点

1.1 语义鸿沟

​ 建立像素到语义的映射。

1.2 视角

​ 对相同的目标进行不同视角的拍摄,得到不同的图片。

1.3 光照

​ 光照变化会引起目标整体颜色的变化。

1.4 尺度

​ 大小是相对的,放在姚明身上是小,放到矮子面前是大,是个相对的概念。同理,当目标远离摄像机时,目标占图片的比例变小,靠近时,目标比例变大。

1.5 遮挡

​ 当目标被遮挡了一部分,甚至只露出一小部分,人有时是能够识别出目标的,图片中不可能每个目标物都没有被遮挡,因此需要西铜有一定的抗遮挡能力。

​ 例:目标追踪、智能机器人…

1.6 形变

​ 目标(尤其是动物)在不同条件下展现出不同的姿态,以识别猫为例,在深度学习出现之前,是非常难的。目前,难度已不大。

1.7 背景杂波

​ 背景的颜色、条纹会影响目标的识别。

1.8 类内形变

​ 同一物种(品种)的动植物(事物)可能会有各式各样的形态(多样性)。

1.9 运动模糊

​ 一张图像上同时记录了目标(动物)多个位置的信息。

​ 解决方法:

​ 1.运用高速相机。

​ 2.运用算法将模糊的图象恢复(运动恢复)。

1.10 类别繁多

综上,我们在进行图象目标分类的过程中,应当将问题进行拆解,对应到各个难点中,运用解决各个难点相应的方式方法进行解决。

2.规则的方法可行性探究

def classify_image(image):
    #do something magical hehe
    return class_label

2.1 硬编码(通过人来总结规律)

​ 泛化能力弱,不可行。

3.数据驱动的图像分类范式

3.1 数据集构建

3.1.1 有监督任务(主要)

​ 找到许多包含分类目标的带标签的图象,从图片和标签的对应关系里学到语义和标签的关系,在下一次接收到新的图片时,能够给其打上目标标签。

3.1.2 无监督任务(次要)

​ 找的图像无标签,更多希望从数据集中找到规律。

3.2 分类器的设计与学习(核心步骤)

​ 从数据中归纳出规律,用一个数学模型(分类器),把模型中未知的参数填上(学习过程)。

3.3 分类器决策

​ 对未知的东西进行决策,用于真实实践。

4. 分类器学习环节

计算机视觉与深度学习 学习笔记【一】 图像分类_第1张图片

4.1 图象表示

​ 将输入的图象转化为可被算法接受的形式。

4.1.1 像素表示(在神经网络中占绝对主流)

​ 通过RGB三通道进行像素表示

4.1.2 全局特征表示(如GIST)

​ 从图片中抽取一些特征,特征计算过程中要依赖所有的像素,但计算中特征容易丢失,导致结果不精确。

4.1.3 局部特征表示(如SIFT+词袋模型)

​ 从图像中抽出有典型意义的区块,以这些区块来表示整张图片,抗遮挡能力强

4.2 分类模型

​ 选择一个分类模型对图像进行预测,得到预测值。

例:

计算机视觉与深度学习 学习笔记【一】 图像分类_第2张图片

4.3损失函数

​ 将预测值和真实值运用损失函数进行比较,得到一个损失值,这个损失值反映了该分类器针对这一任务的性能。

​ 例:

计算机视觉与深度学习 学习笔记【一】 图像分类_第3张图片

4.4优化算法

​ 通过算法调整参数,使得损失值下降,从而进行结果优化。

​ 例:

计算机视觉与深度学习 学习笔记【一】 图像分类_第4张图片

5.5 模型参数

​ 最终得到的结果,希望能够使得预测值和真实值之间的差异越来越小。

5.6 训练过程

计算机视觉与深度学习 学习笔记【一】 图像分类_第5张图片

5.7决策环节

计算机视觉与深度学习 学习笔记【一】 图像分类_第6张图片

6. 常用的分类任务评价指标

计算机视觉与深度学习 学习笔记【一】 图像分类_第7张图片

6.1 top1与top5指标

计算机视觉与深度学习 学习笔记【一】 图像分类_第8张图片

你可能感兴趣的:(CV&DL,cv,计算机视觉,deep,learning,深度学习,python)