论文要点解析End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别

本文提出一种考虑时序和上下文的、端到端的多模态情感分析。视频和音频两种模态。比较了各种模型的arousal和valence.
相比较之前手工特征的提取,本文提出直接用raw signal作为输入,
Visual Network,使用已有数据集50层的深度残差网络用提取特征,
Speech Network:
1)Input.考虑到说话者之间不同音量的变化,预处理时间序列为零均值和单位方差,之后把原始波形分段为6s长的序列。 在16千赫采样率,这对应于96000维的输入向量。
2)Temporal Convolution时间卷积. 用F = 20 时空有限脉冲滤波器,窗口大小 5ms,从高采样率信号提取精细尺度光谱信息
3)Pooling across time.跨时间池化 每个滤波器的脉冲响应通一个过半波整流器(类似于人耳中的耳蜗转导步骤),然后下采样到8千赫,通过池化每个脉冲,池化层:a pool size = 2.
4)Temporal Convolution. 时间卷积。我们用M= 40 时空有限脉冲滤波器,窗口大小 500ms,用来提取更长期的语音特征和语音信号的粗糙度
5)Max pooling across channels. 跨通道最大池化。with a pool size of 10. 这减少了信号的维度同时也保存卷积信号的必要统计信息
6)Dropout. 由于参数众多,为了避免过拟合,进行正则化,选择以0.5的概率dropout
目标函数:the concordance correlation coefficient (ρc)在这里插入图片描述
网络结构:
论文要点解析End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别_第1张图片
训练模型:先分别训练两个不同模态,然后将提取到的联合特征 fed to两层的lstm,用adam优化器,lr=10 e-4,音频,25个样本作为一个小批量,除了循环层,其他层dropout=0.5,视频模型,图像96*96,2个样本的小批量。大小调整为110×110,并随机剪切到与原来的大小相等的大小,数据得到增强。此外,通过给图像引入随机亮度和饱和度使用彩色增强。

最后,为了进一步证明模型自动预测arousal and valence的好处,图3说明了来自RECOLA的单个测试对象的结果。
论文要点解析End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别_第2张图片

你可能感兴趣的:(论文要点解析End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别)