5-图像处理与深度学习-读书笔记

5-图像处理与深度学习-读书笔记

    • 1.概述
    • 2.传统图像识别技术
    • 3.深度学习与图像识别
    • 4.课程实践

本笔记根据PaddlePaddlePPT中第5章内容整理总结。

1.概述

1.1 图像识别目标
1.2 图像识别挑战

  • 语义鸿沟(Semantic Gap)现象:图像的底层视觉特性和高层语义概念间的鸿沟

1.3 图像识别基本框架
测 量 空 间 特 征 表 示 → 特 征 空 间 特 征 匹 配 → 类 别 空 间 测量空间\underrightarrow{特征表示}特征空间\underrightarrow{特征匹配}类别空间

2.传统图像识别技术

2.1 早期图像识别技术(1990-2003)
2.1.1 特征提取

  • 全局特征提取:用全局的视觉底层特性统计量表示图像
    图片被表示成向量:原图片→向量空间映射→向量表示
  • 全局特征示例:颜色特征、纹理特征、形状特征
  • 特征变换:提高特征表示性能
  • 流形学习(Manifold Learning):高维数据映射为低维空间下的向量表示
  • 简单特征变换:中心化、归一化、去相关、白化

2.1.2 索引技术
2.1.3 相关反馈
2.2 中期图像识别技术(2003-2012)
2.2.1 特征提取

  • 局部特征(Local Feature):图像区块(Patch)的向量
  • 特征检测子(Feature Detector):检测图像区块中心位置(interest points)
  • 特征描述子(Feature Desciptor):描述区块的视觉内容
  • 局部检测子:Harris,DoG,SURF,Harris-Affine,Hessian-Affine,MSER
  • 局部描述子:SIFT,PCA-SIFT,GLOH,Shape Context,ORB,COGE

2.2.2 向量化

  • 局部特征转化为视觉关键词(即特征量化,Feature Quantization):查找视觉关键词,转化局部特征向量为关键词序号
  • 常用特征量化技术:Hierarchical 1-NN、KD-tree
  • 基于视觉关键词的图像表示:
    图 像 特 征 提 取 → 局 部 特 征 特 征 量 化 → 视 觉 词 袋 → 视 觉 关 键 词 直 方 图 图像\underrightarrow{特征提取}局部特征\underrightarrow{特征量化}视觉词袋\to视觉关键词直方图
    2.2.3 索引技术
  • 倒排索引
  • 排序:tf-IDF加权(Term frequency-inverse document frequency)
    2.2.4 后处理
  • 查询扩展:使原有查询项含更多局部特征,再进行扩展查询
  • 其他后处理技术:局部几何验证(Local Geometric Verification)、乘积量化(Product Quantization)

3.深度学习与图像识别

3.1 深度学习发展历程

  • 深度学习在图像领域的应用:图片检索、识别异常的肿瘤、图片描述、图片着色

3.2 为什么使用深度学习

  • 人脑视觉机理:1)视感觉阶段-信息采集 2)视知觉阶段-信息认知
  • 神经-中枢-大脑:原始信号摄入(像素)-初步处理(边缘、方向)-抽象(形状)-进一步抽象(具体物体)

3.3 如何使用深度学习
3.3.1 如何使用深度学习解决图像识别

  • 使用机器学习(深度学习)的目的:寻找一个合适的函数

3.3.2 使用步骤:建立模型(人)、损失函数(人)、参数学习(机器)
3.3.3建立模型

  • 常用激活函数:Sigmoid、TanH、ArcTan、ReLU、PReLU
  • 前置神经网络:输入层→隐藏层→输出层
  • 模型例子:AlexNet、VGG、GoogleNet、Residual Net
  • 输出层:softmax函数作为输出层激活函数,易理解好计算
  • 设置合适的网络结构:层数、节点个数、激活函数
    3.3.4 损失函数
  • 常用损失函数:平方损失函数、交叉熵损失函数
  • 总损失: L = ∑ r = 1 R l r L=\sum_{r=1}^{R}l_r L=r=1Rlr

3.3.5 参数学习

  • 梯度下降: w = w − η ∂ L ∂ w w=w-η\frac{∂L}{∂w} w=wηwL
  • 反向传播算法:链式法则

4.课程实践

  • 人脸识别

码字不易,如果您觉得有帮助,麻烦点个赞再走呗~

你可能感兴趣的:(图像处理与计算机视觉,深度学习,图像识别,计算机视觉,深度学习)