论文要点解析End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别
本文提出一种考虑时序和上下文的、端到端的多模态情感分析。视频和音频两种模态。比较了各种模型的arousal和valence.相比较之前手工特征的提取,本文提出直接用rawsignal作为输入,VisualNetwork,使用已有数据集50层的深度残差网络用提取特征,SpeechNetwork:1)Input.考虑到说话者之间不同音量的变化,预处理时间序列为零均值和单位方差,之后把原始波形分段为6s