SER 语音情感识别-论文笔记3

SER 语音情感识别-论文笔记3

《SPEECH EMOTION RECOGNITION USING SEMANTIC INFORMATION》
2021年ICASSP
Code available here: https://github.com/glam-imperial/semantic_speech_emotion_recognition


文章目录

  • SER 语音情感识别-论文笔记3
  • 前言
  • 一、数据集
  • 二、特征
  • 三、模型方法
    • 1. 语义抽取器
    • 2. 副语言抽取器
    • 3. 融合策略
  • 四、识别结果
    • 1. 实验参数设置
    • 2. 目标函数
    • 3. 消融实验
  • 总结


前言

在本文中,提出了一个新的框架,可以捕获信号中的语义和副语言信息。该框架由一个语义特征提取器和一个副语言特征提取器组成,前者捕获语义信息,后者捕获副语言信息。然后,使用一种新的注意机制,将语义和副语言特征结合到一个统一的表示中。在最终预测之前,统一的特征向量通过LSTM捕捉信号中的时间动态。
SER 语音情感识别-论文笔记3_第1张图片

一、数据集

本文使用了2017年AVEC挑战赛中使用的野外情绪分析**(SEW A)数据集**。该数据集由32对(即64名参与者)的网络摄像机和麦克风拍摄的“野生”视听记录组成,观看90秒的商业视频,并与伴侣讨论最多3分钟。**该数据集提供了三种方式,即音频、视频和文本,用于三个情感维度:唤醒、配价和喜好。**数据集分为3个部分:培训(17对)、开发(7对)和测试(8对),并由6名德语注释员(3名女性,3名男性)注释。

二、特征

语言信息种的语义特征和副语言特征。

三、模型方法

该模型可以利用语音信号中的语义(高级)信息和副语言(低级)动态。低层和高层特征集使用一种新的注意融合策略融合在一起,然后将它们馈送给一层LSTM模块,以捕获信号中的时间动态,用于最终的帧级预测。

1. 语义抽取器

为了捕获语音信号中的语义信息,本文训练了Word2V ec和Speech2V ec模型。第一个模型使用文本信息从给定单词中提取语义向量表示,而第二个模型使用语音。并且将它们的嵌入空间对齐,以获得语义更丰富的语音表示。
为此,通过域对抗训练学习W的初始代理。对抗性训练是一个两层游戏,生成器通过计算W来欺骗鉴别器正确识别嵌入空间,并使WS和T尽可能相似。
SER 语音情感识别-论文笔记3_第2张图片

2. 副语言抽取器

副语言特征提取网络由三个1-D CNN层组成,其中一个校正线性单元(ReLU)作为激活函数,最大池操作介于两者之间。卷积和池运算都是在时域上执行的,使用原始波形作为输入。受之前工作的启发,使用较小的内核大小和步长执行卷积,并使用较大的内核大小和步长执行最大池。
SER 语音情感识别-论文笔记3_第3张图片

3. 融合策略

最后一步是融合语义和副语言语音特征,然后将它们输入LSTM。
有两个策略可以实现特征融合:
(i)串联:标准的特征级融合,即特征向量的简单串联。
(ii)分离”注意机制:
该方法对每个特征集执行线性投影,并使它们位于相同的向量空间。得到投影矩阵分别是语义和副语言特征集,并且使用注意力机制进行融合。之后使用三个完全连接(FC)层,使用不同的参数映射到不同的层,选择使用三个FC层,这样网络种的每个情感维度(即唤醒,配价和喜好)的信息流就可以被解开。
SER 语音情感识别-论文笔记3_第4张图片

为了融合“分离”向量空间的信息,我们应用了一个注意层,以便每个合适的特征集能够相互关注,并产生丰富的融合特征输出,用于最终预测。特别是,我们首先关注a和l;最后,关于v的结果。
SER 语音情感识别-论文笔记3_第5张图片

四、识别结果

1. 实验参数设置

为了训练模型,使用Adam优化方法,固定学习率为10-4。在所有实验中。我们使用了一小批25个样本,序列长度为300,以及一个p=0.5的dropout,用于除重复出现的层外的所有层,以规范网络。由于模型有大量的参数,不规范化网络会使其容易对训练数据进行过度拟合。此外,在训练阶段使用的LSTM网络的训练值为0.5,梯度范数剪裁为5.0。最后,我们将原始波形分割成10秒长的序列,采样率为22 050 Hz。因此,每个序列对应一个22 0500维向量。

2. 目标函数

目标函数是基于协和相关系数,它通过将预测与金标准之间的相关系数与其均方差进行缩放,来评估预测与金标准之间的一致性水平。

3. 消融实验

SER 语音情感识别-论文笔记3_第6张图片
SER 语音情感识别-论文笔记3_第7张图片
SER 语音情感识别-论文笔记3_第8张图片


总结

本文提出了一种基于音频和文本信息的语音情感识别训练框架。使用Word2V ec和Speech2V ec模型,并对齐它们的嵌入空间,以便仅使用语音信号进行准确的语义特征提取。同时使用一种新的注意融合策略将语义和副语言特征结合起来,该策略首先将每个情感维度的信息分离出来,然后使用注意将其结合起来。在SEW A数据集上对提议的模型进行评估,并在配价和喜好维度上产生最先进的结果,与提交给AVEC 2017挑战赛的表现最佳的论文进行比较。

你可能感兴趣的:(人工智能,语音识别)