(多模态 / 多维度)特征融合

文章目录

  • 模式分类中的特征融合方法
    • 引入
    • 现状 ( < 2017)
    • 算法
      • 基于贝叶斯理论的特征融合算法
        • 决策级水平融合(*)
        • 特征级水平融合
      • 基于稀疏表示理论的特征融合算法
      • 基于深度学习的特征融合算法
  • 偏传统的特征融合方法[^6]
  • 一些多模态特征融合的思路方法[^7]
    • 基于线性规划模型
    • 基于稀疏高维映射
  • Adaboost 算法其实也可以看成是一种特征融合的算法
  • 字典学习 系数表示 特征融合

  • 多维度是数学上的,即张量
  • 多模态是数据类型上的,比如音频,视频,图像,传感器回传数值

模式分类中的特征融合方法

引入

  • 传统模式识别思路:特征工程(特征提取、特征降维、特征融合等)、分类器设计、训练测试
  • 特征如:颜色特征、SIFT特征、HOG特征、HOF特征、GIST特征等
  • 分类器如:KNN、SVM,Random Forest、CNN等
  • 特征分为:人工设计的特征 和 深度特征,前者特点鲜明意义明确,后者面向具体问题(即理解为 提取的特征 是针对CNN训练时侧重的具体问题和场景 )
  • 一般 特征存在:类内方差小 而 类间方差大(即不同样本的同种特征的差异小,而不同的特征的差异大),所以从这里就可以知道 多模态的特征 融合 不能是 简单的相加相减或者拼接就完事了,会导致可能融合的特征会出现 被某种特征 所主宰 的情况。所以特征融合是能好好研究的(即研究有难度、有价值 和 有意义)
  • 基于两个经验前提:① 不同特征有 独立性(即相关性小)② 多特征融合 较 单一特征 可分类性能更好
    • 为啥这样说呢?就是 三个臭皮匠顶个诸葛亮,每个特征 管图像目标的 一方面特性,那融合后的特征表示就更加能全面的表示目标/图像,即使 不同图像 的 部分特征的差异小,其他特征仍有区分度,所以整个算法也就更加 rubust(鲁棒性)
  • 信息融合 从处理层次划分为:决策级(分类器级 decision level fusion)、特征级( feature level fusion) 和 数据(这里就是图像)级(data level fusion)
    • 所以特征融合 处于中间层次融合的 这种地位
    • 本质就是 基于已有特征集合 生成 新的更鲁棒更精确全面 的特征
      (多模态 / 多维度)特征融合_第1张图片

现状 ( < 2017)

  • 贝叶斯决策理论1:总结了乘法规则、加法规则、最大规则、最小规则、中位数规则、多数票规则等经典的融合规则
  • 基于联合稀疏表示的特征级融合方法2:
  • 稀疏核降秩回归模型3 ( SKRRR, sparse kernel reducedrank regression)
  • 图像检索中的重排序( re-ranking) 问题中4
  • balaba (介绍了 视频处理的涉及特征融合的 算法 雨女无瓜)
  • 总结特征融合的研究现状:
    • 基于贝叶斯决策理论的算法, 它的基础是统计推断和估计理论, 这类算法目的在于求解联合概率密度;
    • 基于稀疏表示理论的算法, 这类算法通常与最优化理论相结合, 将
      特征融合问题转化为优化问题, 进而求解联合稀疏表示来达到融合目的;
    • 基于深度学习理论的算法, 这种算法的主要思想是在深度卷积神经网
      络中加入特征融合过程, 以改进网络模型.

算法

基于贝叶斯理论的特征融合算法

决策级水平融合(*)

  • 该理论先从决策级发展出来的,一句话,取后验概率最大的类别标签作为最终 类别
  • x:分类器输出结果;w:分类标签
    x → ω j ,  if  F ( ω j ) = max ⁡ k = 1 , ⋯   , C P ( ω k ∣ x ) P ( ω k ∣ x 1 , ⋯   , x M ) = p ( x 1 , ⋯   , x M ∣ ω k ) p ( ω k ) p ( x 1 , ⋯   , x M ) \begin{aligned} & x \rightarrow \omega_{j}, \\ \text { if } F\left(\omega_{j}\right) &=\max _{k=1, \cdots, C} P\left(\omega_{k} \mid x\right) \end{aligned} \\ P\left(\omega_{k} \mid \boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{M}\right)=\frac{p\left(\boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{M} \mid \omega_{k}\right) p\left(\omega_{k}\right)}{p\left(\boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{M}\right)}  if F(ωj)xωj,=k=1,,CmaxP(ωkx)P(ωkx1,,xM)=p(x1,,xM)p(x1,,xMωk)p(ωk)
  • 防止除0,直接取对数:
    Z → ω j  if  F ( ω j ) = max ⁡ k = 1 [ ( 1 − M ) P ( ω k ) + ∑ i = 1 M P ( ω k ∣ x i ) ] \begin{array}{c} Z \rightarrow \omega_{j} \\ \text { if } F\left(\omega_{j}\right)= \\ \max _{k=1}\left[(1-M) P\left(\omega_{k}\right)+ \sum_{i=1}^{M} P\left(\omega_{k} \mid x_{i}\right)\right] \end{array} Zωj if F(ωj)=maxk=1[(1M)P(ωk)+i=1MP(ωkxi)]
  • 先验后验近似相等情况下,认为:
    P ( ω k ∣ x k ) = P ( ω k ) ( 1 + δ k i ) P\left(\omega_{k} \mid \boldsymbol{x}_{k}\right)=P\left(\omega_{k}\right)\left(1+\delta_{k i}\right) P(ωkxk)=P(ωk)(1+δki)
  • 搞一堆公式,最后发现,近似取 P ( ω k ) P\left(\omega_{k}\right) P(ωk) 最大的标签就完事了!

特征级水平融合

  • 由于分类器独立性假设与先验概率和后验概率近似相等假设都有相应的成立条件, 在各种应用情景中不一定完全成立, 尤其是 分类器独立性假设在许多分类问题中都难以成立.
  • 线性特征依赖模型5:该算法将特征量的每个维度都看作一个分类器, 致使运算时间复杂度较高, 有待改进. 评价:卵用没有

基于稀疏表示理论的特征融合算法

  • 稀疏表示理论是信号处理领域的一种基础理论, 它的基本思想是使用数据稀疏性这一先验知识,从一个超完备字典中找到尽可能少的原子对目标信号进行线性表示.
    min ⁡ ∥ x ∥ 0  s.t.  A x = b \begin{array}{l} \min \|\boldsymbol{x}\|_{0} \\ \text { s.t. } \boldsymbol{A x}=\boldsymbol{b} \end{array} minx0 s.t. Ax=b
  • A是字典,b是特征
  • 学习 稀疏表示矩阵x
  • 显然稀疏表达的效果好坏和我们用的字典有着密切的关系。字典分两类,一种是预先给定的分析字典,比如小波基、DCT等,另一种则是针对特定数据集学习出特定的字典。这种学出来的字典能大大提升在特定数据集的效果。

基于深度学习的特征融合算法

偏传统的特征融合方法6

  • 下图这种方法,可以作为毕设中 偏机器学习特征融合算法的 补充
    (多模态 / 多维度)特征融合_第2张图片
    (多模态 / 多维度)特征融合_第3张图片
  • 直接用全连接层,这种方法需要你手动框选出一些目标区域和(背景/Distractor)作为样本,上述是一种 图像分类网络,只不过特征是手动设计的
  • 类似的,可以采用随机森林替代全连接层

一些多模态特征融合的思路方法7

基于线性规划模型

  • 线性分类器, y ( x ) = w T ⋅ x + c y(\mathbf{x})=w^{T} \cdot \mathbf{x}+c y(x)=wTx+c
  • 建模成为一个具有稀疏性的线性规划模型,并从最大间隔原理、稀疏性和松弛变量三个方面,分别详细地阐述和分析该学习方法的原理和作用。
  • 作者就是在把 SVM写了一遍 … …
  • 这里还是做了一个分类器,直接就是线性分类器,权重w就是在表示 改特征的重要性!

基于稀疏高维映射

(多模态 / 多维度)特征融合_第4张图片

  • 乱七八糟,不知所云

Adaboost 算法其实也可以看成是一种特征融合的算法

字典学习 系数表示 特征融合

  • 多特征联合稀疏表示人脸表情识别方法8 Page 34
    (多模态 / 多维度)特征融合_第5张图片

  1. Kittler J, Hatef M, Duin R P W, et al. On combining classifiers[J]. IEEE transactions on pattern analysis and machine intelligence, 1998, 20(3): 226-239. ↩︎

  2. Shekhar S, Patel V M, Nasrabadi N M, et al. Joint sparse representation for robust multimodal biometrics recognition[J]. IEEE Transactions on pattern analysis and machine intelligence, 2013, 36(1): 113-126. ↩︎

  3. Yan J, Zheng W, Xu Q, et al. Sparse kernel reduced-rank regression for bimodal emotion recognition from facial expression and speech[J]. IEEE Transactions on Multimedia, 2016, 18(7): 1319-1329. ↩︎

  4. Bai S, Bai X. Sparse contextual activation for efficient visual re-ranking[J]. IEEE Transactions on Image Processing, 2016, 25(3): 1056-1069. ↩︎

  5. A. J. Ma, P. C. Yuen and J. Lai, “Linear Dependency Modeling for Classifier Fusion and Feature Combination,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 5, pp. 1135-1148, May 2013, doi: 10.1109/TPAMI.2012.198. ↩︎

  6. 面向目标识别的多特征融合研究与实现 ↩︎

  7. 基于特征层与分数层的多模态生物特征融合 ↩︎

  8. 多特征融合人脸表情识别方法研究_丁泽超 ↩︎

你可能感兴趣的:(论文阅读笔记)