文献阅读(十六):多模态连续维度情感识别研究_张戈(硕士论文)

文献阅读(十六):多模态连续维度情感识别研究_张戈(硕士论文)

本文针对于连续维度情感空间提出了一种多模态情感识别方法,该方法主要分为四个步骤:

  • 1.音/视频情感预测,通过对音视频信号的处理,情感特征的提取以及模型的建立,从而预测连续维度情感。由于特征维度较大,需要使用有效降维方法决定输入变量阶次,确定多模态特征数量;
    本文对音频和视频双模态分别提取多种情感特征,分别提取浅层特征与深层特征。在音频模态中,浅层特征在音频中称为低水平描述子,本文主要提取了音频基本特性以及基于人耳听觉对音频频谱的特征等;深层特征主要通过低水平描述子建立高阶函数,从而达到对高阶高维音频特征的提取。本文关注了视频特征中的全局特征,如颜色、纹理以及通过使用卷积神经网络提取的深度特征等。
  • 2.双模态融合;
  • 3.情感识别框架建立;本文建立了加权组合增强型框架(W-SVR-GBRT),提出了使用多级加权回归框架,用于对多模态连续维度情感识别与预测。该模型分为四层,第一层是对音视频情感特征的提取;第二层基于特征级融合与决策级融合相结合的思想,将同一模态中的数据先进行特征级融合;第三层根据音频与视频的不同特性,分别使用性能最优的模型进行单模态回归;第四层对回归后的输出提出了改进的线性回归决策级融合策略,最终完成情感预测。
  • 4.多模态情感识别中模态异常情况处理。本文注意到单一模态对整体情感识别的影响,提出新型决策级融合策略——FWOSVR 模型,目的是解决在多模态情感识别的过程中不同模态离群点对最终决策的影响,避免单一模态的误差影响全局识别精度的问题,从而有效地避免模态离群点的影响。
  • 本文的创新点主要有以下几点。
    1.本文建立了多模态连续维度情感识别模型。首先针对于音视频模态的差异性以及情感维度空间与多模态的关联性,提出使用多模型预测情感,然后建立了多级回归网络,首次在连续维度情感识别中使用梯度增强回归树,提高情感识别准确率。
    2.本文提出了改进的线性回归模型。相比于传统的线性叠加和线性回归,本文考虑到模态中最近邻域内相关帧之间的关系,并添加反馈机制,从而建立了基于残差的局部加权线性回归的决策级融合策略。
    3.本文关注到模态间异常情感帧的存在,大多数多模态情感研究的原因是多模态之间的互补性,恰恰忽略了模态之间的负相关性,本文针对这种异常情况改进了决策级融合机制,使用在线学习的机制建立了模糊非线性时变系统,从而有效寻找离群点并去除离群点的影响。

本文使用的多模态连续维度情感数据集为法国里昂中央理工学院(Ecole Centrale de Lyon, ECL)提供的 LIRIS-ACCEDE 视频情感内容分析数据集,其中包含了音频、视频两种模态,该数据集提供了离散和连续两种视频,一共有 9800 个视频片段,选
自 160 部电影[18]。本文使用连续性视频,此数据集的标签分为两种,第一,Arousal-Valence 形式;第二,数据集还单独提供了恐惧的标签,将视频中会令人产生恐惧心理的内容起始时间与终止时间进行标注,以便于研究者们对视频恐惧内容的预测,并
及时告知观看者,防止包含恐惧情感的视频对观看者产生心理刺激。

你可能感兴趣的:(研究领域论文学习)