国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例

文章目录

  • 2. 特征设计与提取过程q
  • 2.1 局部特征--SIFT
  • 2.2局部特征HOG
  • 3. 特征汇聚或变换h
    • 3.1BoVW视觉词袋模型
    • 3.2PCA
  • 4.以人脸识别为例
    • 4.1 主动统计模型
      • 4.1.1ASM(active shape model)
      • 4.1.2 AAM主动表观模型
    • 4.2人脸特征提取和比对
      • 特征脸
      • Fisherfaces方法--本质(Fisher线性判别分析)=PCA+FLD
      • 贝叶斯人脸识别
      • LBP

  • 计算机视觉的基本任务
    • 距离估计
      • 距离估计是指计算输入图像中的每个点距离摄像机的物理距离,该功能对于导盲系统显然是至关重要的
    • 目标检测、跟踪、定位
      • „ 在图像视频中发现感兴趣的目标,并给出其位置和区域。对导盲系统来说,各类车辆、行人、红绿灯、交通标示等都是需关注的目标
    • 前景分割和物体分割
      • 将图像视频中前景物体所占据的区域或轮廓勾勒出来。为了导盲之目的,将视野中的车辆和斑马线区域勾勒出来显然是必要的,当然,盲道的分割以及可行走区域的分割更加重要
    • 目标分类和识别
      • 为图像视频中出现的目标分配其所属类别的标签。这里类别的概念是非常丰富的,例如画面中人的男女、老少、种族等,视野内车辆的款式乃至型号,甚至是对面走来的人是谁(认识与否)等等
    • 场景分类与识别
      • 根据图像视频内容对拍摄环境进行分类,如室内、室外、山景、海景、街景等等
    • 场景文字检测与识别
      • 特别是在城市环境中,场景中的各种文字对导盲显然是非常重要的,例如道路名、绿灯倒计时秒数、商店名称等等
    • 事件监测与识别
      • „ 对视频中的人、物和场景等进行分析,识别人的行为或正在发生的事件(特别是异常事件)
  • 定义
    • 解读wh3个0~255之间的数字中蕴藏的、人类可理解的内容(边界,区域,物体,事件,意义)
  • 数学建模
    • 多数计算机视觉问题可以建模为广义的函数拟合问题
      • 学习一个以 θ \theta θ为参数的函数F,使得 y = F θ ( x ) y=F_\theta(x) y=Fθ(x)
      • 其中y大致有两大类:
        • „ 类别标签:有限种类的离散型变量
        • „ 续变量或向量或矩阵:连续的变量或向量

国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第1张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第2张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第3张图片
在这里插入图片描述

  • 方法
    1. 图像预处理过程p
      1. 用于实现目标对齐、几何归一化、亮度或颜色矫正、图像复原(如去模糊)、图像增强等处理,从而提高数据的一致性,该过程一般是人为设定的。
    2. 特征设计与提取过程
      1. 其功能是从预处理后的图像中提取描述图像内容的特征,这些特征可能反应图像的低层(如边缘)、中层(如部件)或高层(如场景)特性,一般也是依据专家知识人工设计的
      2. 该步骤一般并不需要训练数据进行学习
    3. 特征汇聚或变换t
      1. 其功能是对前步提取的局部特征(一般是向量)z,进行统计汇聚或降维处理,从而得到维度更低、更利于后续分类或回归过程的特征z′。
      2. 该过程一般通过专家设计的统计建模方法实现,通常需要训练数据进行学习(与下一个步骤类似)
    4. 分类器或回归器函数h的设计与训练
      y = F θ ( x ) = h ( t ( q ( p ( x ) ) ) ) y=F_\theta(x)=h(t(q(p(x)))) y=Fθ(x)=h(t(q(p(x))))
  • 缺点——浅层视觉模型
    • 带有强烈的“人工设计”色彩:不仅
      • 依赖于专家知识进行步骤的划分,
      • 更依赖专家知识选择和设计各步骤的函数

2. 特征设计与提取过程q

  • 设计某种流程来提取专家觉得“好”的特征
  • 分类
    • 局部特征
      • 提取局部细节,主要建模边缘、梯度、纹理基元等
      • 手段:滤波器+统计(直方图)
      • 典型的局部特征:SIFT, HOG, LBP, Gabor, SURF, DAISY, BRIEF, ORB, BRISK
    • 全局特征
      • 颜色直方图(统计各个颜色出现的频度
      • GIST(对图像场景的整体空间形状属性建模

2.1 局部特征–SIFT

国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第4张图片

  • 尺度不变特征变换,
    • SIFT: Scale-Invariant Feature Transform
      • „ 由David Lowe于1999年提出,其发表的ICCV1999和IJCV2004两篇文章被谷歌引用超过65000次
  • „ 概况
    • 自动发现一定数量的关键兴趣点
      • „ 特征点数是不确定的,与图像内容有关
    • 自适应确定合适的局部邻域范围
      • „ 与特征点尺度有关
    • 提取方向直方图作为描述特征
      • „ 特征维度通常固定为128维
      • „ 对尺度和旋转等变化具有良好不变性
  • 计算步骤
    1. 尺度空间上的极值检测
      • 目标:识别潜在的、对尺度和旋转不变的候选兴趣点
      • 做法:使用高斯差分(DoG)金字塔近似LoG算子,形成尺度空间用以计算极值点
        • 不仅要考虑图像域中空间域上的极值,也要考虑尺度域中相邻尺度上的极值点
        • 即:极值点是DoG尺度空间的本层及上下层的若干邻域点中的最大/小值
    2. 关键点筛选和精确定位
      • why?上述极值点都未必是稳定可靠的特征点,并且为之也未必精确
        • 筛选:去除部分对比度低的关键点,以及去除那些响应大但不稳定的边缘点
        • 精确定位:采用函数拟合法,通过求解拟合曲线的极值点来得到位置和尺度
    3. 确定特征点主方向
      • „ 为实现旋转不变性,需确定每个特征点的主方向
        • 所谓主方向,是指该特征点邻域像素梯度方向的统计显著方向
      • „ 通过统计一定邻域范围内像素的梯度方向直方图得到(参见上图)
      • „ 为准确计算主方向,可以10度为间隔构建直方图
        • 注:清晰起见,上图示例的只是8个方向,即以45度为间隔
    4. „ 确定描述子采样邻域的范围(由步骤2所得尺度决定)以获得尺度不变性
      • „ 用步骤3的主方向对该区域进行旋转以对齐到主方向,获得旋转不变性

      • „ 将旋转后区域划分为d×d个子区域(d通常取为4),在每个子区域内计算O个方向的梯度直方图

        • 与求主方向不同,这里通常取O为8,即每个方向区间为45°
        • 故最终每个特征点的SIFT特征维度为4x4x8=128

        国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第5张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第6张图片
        国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第7张图片
        SIFT讲解视频

2.2局部特征HOG

  • 方向梯度直方图
  • 动机:SIFT仅在稀疏关键点邻域内统计梯度特征(找关键点费劲
  • 特点
    • 也是统计局部梯度直方图,但没有关键点的概念
    • 按不长滑动窗口直接在图像上均匀采样,局部区域统计方向,梯度直方图
    • 开启了稠密特征描述子的先河
      国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第8张图片
  • 计算步骤
    1. 梯度计算
      • 将每个像素点作为中心点位置,计算其梯度强度和方向
      • 可以通过水平和竖直方向的滤波器核([-1, 0, +1]和[-1, 0, +1]T)实现
    2. 将图像分块(Block)
      • 设定图像块大小,例如BxB个像素,然后在图像上以一定的步长S滑动,滑动到每个位置得到一个BxB大小的图像块
      • S一般小于B,所以图像块之间是有重叠的
    3. 分块细分为Cell
      • 将每个分块(BxB)均匀细分为若干个更小的分块,每个分块称为cell
      • 假设每个cell大小为NxN像素, 则每个Block被划分为(B/N)x(B/N)个Cell
    4. Cell内统计梯度强度加权的方向直方图
      • 以cell为基本统计单元计算方向直方图,即
      • 将cell中每个像素的梯度方向按照梯度强度加权的方式,映射到预设的M个方向桶(bin)中,从而形成cell的方向梯度直方图H_c
    5. 拼接Block内所有Cell直方图并归一化
      • 每个Block 内部所有cell的H_c直接拼接得到H_b
      • 然后用L1-norm或L2-Norm对其进行归一化处理,即得到该block的方向梯度直方图
    6. 全图HOG特征计算
      • 将图像中所有Block的特征串接起来, 即得到最终的图像HOG特征

3. 特征汇聚或变换h

  • 原因
    `有效性(未充分考虑随后的任务和目标
  • 方法
    • 特征汇聚
      • 视觉词袋模型(BoVW),Fisher向量(FV),和局部聚合向量(VLAD)
    • 特征变换方法
      • PCA,线性判别分析、流形学习

3.1BoVW视觉词袋模型

  • 图-文档;局部特征-词
  • 计算过程
  • „ 1. 图像特征提取
    • 理论上,用于BoVW方法的图像特征可以是任意特征
    • „ 既可以前述的稀疏关键点SIFT特征,也可以是稠密采样的HOG特征
    • „ 实践中,128维的稀疏关键点SIFT特征是应用最广泛的
  • „ 2. 视觉词典构建
    • 用于文本处理的BoW基本单元是单词(word)
      • „ 单词是确定的,很容易统计词频
    • 面向计算机视觉的单词应该是什么?
      • „ 视觉局部特征几乎不可能完全相同,需要首先构建视觉单词,形成视觉词典(Visual Vocabulary),以便像BOW中一样通过统计词频形成词袋
      • „ 视觉单词可以理解为一些经常出现的视觉特征,需要从一个训练集中学习而来
      • 假设训练集中有M幅图像,对第i幅图像提取SIFT特征,设得到Ni个关键点及其每个关键点的128维SIFT描述子
      • 将所有训练图像中的 N = Σ i = 1 M N i N=\Sigma_{i=1}^MN_i N=Σi=1MNi个SIFT特征进行聚类
        • 例如用K-Means,高斯混合模型等,得到K个聚类中心
        • 每个聚类中心是一个128维的向量Wk,即所谓视觉单词
      • 所有K个视觉单词的集合即形成视觉词典 D = { W k : k = 1 , . . . , K } D=\{W_k:k=1,...,K\} D={Wk:k=1,...,K}
  1. 图像的视觉词袋表示
    • 给定任意图像
    • 计算其SIFT特征,得到l个128位的SIFT的描述子{xj}
    • 将这些特征分别映射到视觉词典中的某个视觉单词 {Wj}
    • 统计每个视觉单词出现的频次,可以得到一个K维的直方图向量H
  • 优点
    • 从L*128的不定长表示->K维定长表示
    • 便于度量不同图像间的距离,有利于后续图像检测分类等任务
  • 应用
    • 以图搜图SIFT+BoVW+Hashing(二值化)用于图像检索任务
    • 图像分类 SIFT+BoVW+SVM用于图像分类任务

3.2PCA

  • 目标
    国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第9张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第10张图片
  • 降维
    • 理论:特征值的大小对应于特征向量所描述的方向上方差的大小==》所以从w中去掉那些对应较小特征值的特征向量,因为在信息丢失最小的情况下降维
    • 误差:x与重构的x’的误差为: Σ j = 1 n λ j − Σ j = 1 d λ j = Σ j = 1 + d n λ j \Sigma_{j=1}^n\lambda_j-\Sigma_{j=1}^ d\lambda_j=\Sigma_{j=1+d}^n\lambda_j Σj=1nλjΣj=1dλj=Σj=1+dnλj
  • 小结:
    • „ 一种多元统计分析方法
    • „ 变换后各维数据之间的相关性最小
    • „ 最小均方误差意义下的最佳变换
    • „ 限定有效的参数空间范围(在训练集合对象变化论域下)

国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第11张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第12张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第13张图片

4.以人脸识别为例

国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第14张图片

  • 面部特征点定位方法
    • 可变形模版的方法(下巴检测、眼睛嘴唇检测)

国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第15张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第16张图片

4.1 主动统计模型

4.1.1ASM(active shape model)

  • 人脸形状表示(n个特征点形成的向量s
  • 统计形状模型
  • 人工->S={s1,s2,…,sm}
  • pca: b s = W s ′ ( s − s ˉ ) − b_s=W'_s(s-\bar{s})- bs=Ws(ssˉ)
  • 重构 s = ( ˉ s ) + W s b s − − − 改 变 b s , 得 到 不 同 的 人 脸 形 状 ( 方 向 ) s=\bar(s)+W_sb_s---改变bs,得到不同的人脸形状(方向) s=(ˉs)+Wsbsbs(
    国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第17张图片
  • „ 目标:求取最优的人脸形状(特征点位置)
    • 求取最优的bs参数,使得用bs重建的形状最佳的匹配输入图像中人脸的形状
  • „ 思路
    • 首先进行不够可靠的局部特征点纹理匹配
    • 然后通过全局形状统计约束来对其进行规范化
  • „ 方法(迭代优化
    • 局部纹理模型:每个特征点自己找自己该去哪里
      • „ 对每个特征点,在其法线邻域内搜索最佳匹配局部纹理模型的点
      • „ 局部纹理模型
        • 法线方向的纹理梯度,称为Profile
        • 每个特征点的Profile模型都要在训练阶段统计而来
      • „ 匹配方法
        • 在法线上逐点计算(马氏)距离
        • 选择距离最小的候选点作为匹配点
    • 全局统计形状模型(PCA)约束:纠正不靠谱的(瞎跑的)特征点
  • 缺点
    • 实质上目标函数缺失
    • 容易形成震荡
      国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第18张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第19张图片
      国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第20张图片

4.1.2 AAM主动表观模型

国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第21张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第22张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第23张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第24张图片

4.2人脸特征提取和比对

  • 人脸存储
    • 几何参数
    • 亮度向量
    • 特征脸
      • 本质PCA or KLT(用于人脸提取特征问题)
      • Wi-像脸?Wi是协方差矩阵的特征向量
    • Fisherfaces方法–本质(Fisher线性判别分析)=PCA+FLD
      • 寻找一种投影变换Y=WX
      • 同一人更紧致,不同人更离散
      • 类内离散度Sw
      • 类间离散度Sb
      • S w − 1 S b W = W Λ 目 标 函 数 : W f l d = a r g m a x W ∣ W T S B W ∣ ∣ W T S W W ∣ S_w^{-1}S_bW=W\Lambda\\目标函数:W_{fld}=argmax_W\frac{|W^TS_BW|}{|W^TS_WW|} Sw1SbW=WΛWfld=argmaxWWTSWWWTSBW
      • 如果Sw是奇异的:正则化,Null-space
      • FLD假设:所有类别具有相同的协方差分布(实际不是这样的
      • FLD的特征唯独:最大为C-1(C类)
    • 贝叶斯人脸识别
      • „ 类内差( Ω I \Omega_I ΩI)类
        • 相同个体的多幅图象之间的差别,即包含了表情、不同光照条件、不同姿态等差别
      • „ 类间差( Ω E \Omega_E ΩE )类
        • 不同人的人脸图象之间的差别,包含了身份变化的信息
      • 相似度建模为 Δ = I 1 − I 2 \Delta=I_1-I_2 Δ=I1I2属于类内差别的概率 S ( I 1 , I 2 ) = P ( Δ ∈ Ω I ) = P ( Ω I ∣ Δ ) = P ( Δ ∣ Ω I ) P ( Ω I ) P ( Δ ∣ Ω I ) P ( Ω I ) + P ( Δ ∣ Ω E ) P ( Ω E ) 若 为 正 态 分 布 : P ( Δ ∣ Ω I ) = N ( Δ , Σ I ) P ( Δ ∣ Ω E ) = N ( Δ , Σ E ) S(I_1,I_2)=P(\Delta \in \Omega_I)=P(\Omega_I|\Delta)\\=\frac{P(\Delta|\Omega_I)P(\Omega_I)}{P(\Delta|\Omega_I)P(\Omega_I)+P(\Delta|\Omega_E)P(\Omega_E)}\\若为正态分布:P(\Delta|\Omega_I)=N(\Delta,\Sigma_I)\\P(\Delta|\Omega_E)=N(\Delta,\Sigma_E) S(I1,I2)=P(ΔΩI)=P(ΩIΔ)=P(ΔΩI)P(ΩI)+P(ΔΩE)P(ΩE)P(ΔΩI)P(ΩI)P(ΔΩI)=N(Δ,ΣI)P(ΔΩE)=N(Δ,ΣE)
    • Tom-vs-pete:像谁就是谁
    • LBP:local binary patterns(图像=语言)
    • Gabor+FLDA

特征脸

国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第25张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第26张图片

Fisherfaces方法–本质(Fisher线性判别分析)=PCA+FLD

国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第27张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第28张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第29张图片
国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第30张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第31张图片

贝叶斯人脸识别

  • 国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第32张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第33张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第34张图片

LBP

国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第35张图片国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例_第36张图片

  • 建模图像中的微模式类型
    • 与中心点像素亮度上的大小关系
    • 一种建模邻域像素与中心像素亮度序关系的局部特征
      • 3x3像素邻域,中心像素和8-邻域像素亮度大小关系
      • „ 比中心像素更亮则赋1,否则赋0,这样会有256种不同的模式
    • 微模式类型可以类比语言中的word(单词)
    • „ 视觉单词的词频统计作为不同人脸的特征表示

你可能感兴趣的:(国科大模式识别与机器学习)