论文笔记:语音情感识别(三)手工特征+CRNN

一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeech)

(1)分帧加窗,每一帧采用的特征向量为eGeMAPS特征集中的20个特征,每个utterance使用裁剪和padding的做法使得定长512帧,所以输入为20x512的矩阵。每个样本归一化到0均值1标准差(根据对应的说话人)。使用的数据集为EmoDB。

(2)准确率为88.9%

1160281-20181216222550270-820573566.png

二:Speech Emotion Recognition from Variable-Length Inputs with Triplet Loss Function(2018 InterSpeech)

(1)语音情感识别方面的前人工作主要集中于特征和模型的探索,本文将triplet loss应用到模型中,输入三个样本,用LSTM提取特征,训练。最后从loss层的前一层取出特征向量送到SVM分类。使用的特征基于ComParE特征集,使用openSMILE库提取了147个LLDs(Low level Descriptors)。数据集用的IEMOCAP。

(2)通常获得等长输入的做法有:计算一个utterance上很多帧特征,然后对这些帧做一个统计(比如均值,最大值等等);做裁剪和padding使得等长;全卷积加全局池化。

(3)本文使用了三种padding策略,第一种就是按最后一帧的值pad直到达到指定长度,称为pad mode。第二种就是按原序列从头到尾的值进行pad,如果不够长就继续从原序列的头到尾序列pad,重新多次,直到长度大于指定长度,取的时候从中间随机选择,称为cycle mode,实验证明cycle mode效果最好。第三种跟第二种类似,只不过是重复第一帧的值来pad,然后重复第二帧的值来pad,直到最后一帧的值,取的时候也是从中间随机选择。

(4)数据集使用的IEMOCAP,值得一提的是这篇论文只是提出了新颖的方法(triplet loss和cycle mode),在实验中的方法对比上并没有凸出模型表现的优势。

1160281-20181216222626299-975013533.png

1160281-20181216222640896-1283423240.png

三:Exploring Spatio-Temporal Repr

你可能感兴趣的:(论文笔记:语音情感识别(三)手工特征+CRNN)