关于情感语音识别领域的研究距今已有二三十余年的历史。不管是情感语音识别,还是语音情感识别,含义是一样的,都是对带有情感的语音信号进行情感的正确判断。最传统的情感语音识别是基于机器学习下的有监督学习完成的。有监督,即:使用训练集训练处一个模型,然后使用该模型对测试集中的语音信号进行情感状态的正确判断。
传统的机器学习可以理解为模式识别,即需要通过三个环节来完成操作:数据库、特征参数、识别网络。这三个环节均有大量的文献介绍,其中特征参数这一环节衍生出了很多研究方向,比如:特征选择、特征优化等。
就情感语音识别系统而言
一、数据库的选择有:德国的EMO-DB德语情感语音库、英国的Belfast英语情感语音库、中科院CASIA汉语情感语音库,还有就是某些研究情感语音的高校实验室自主录制的语音库,比如:太原理工大学张雪英老师团队录制的TYUT1.0版本和TYUT2.0版本、北京航空航天大学(这个是阅读文献看到的)。
二、常用的特征参数有:韵律特征、音质特征、基于谱的相关特征。注意:近几年提出的非线性特征(这些特征是基于语音信号发声机制中存在的非线性特性提出的)相较于传统的声学特征有它独有的优势。
①、较典型的韵律特征有:语速、能量、平均过零率、基音频率等;
②、最典型的音质特征是:共振峰,这类特征有很好的识别效果;
③、最典型的基于谱的特征是:MFCC特征(梅尔倒谱系数),这个是经典中的经典,但凡研究语音信号的就应该掌握这一特征。
④、非线性特征(建议阅读和引用:孙颖、叶吉祥的文献)
关于特征类型知道有哪些了,接下来就需要了解提取特征的流程:预处理---特征提取---计算特征参数的统计量
(1)预处理:分为三步(端点检测、预加重、加窗分帧)
端点检测的目的是:检测有效声音段的起始点与结束点,以去除无效声音段,从而提高语音信号的处理效率;
预加重的目的是:增加语音信号中高频段的分辨率,以去除口唇辐射的影响;
加窗分帧的目的是:语音信号本身是非平稳的,但是又兼具短时平稳的特点,因此将语音信号分成一小段将此看作平稳信号来处理。这里的分段可以理解为是:分帧,为了全面完整的分析语音信号,要有帧移(这里的理解与图像处理的滑动窗很类似)
(2)提取特征,以:语速、能量、平均过零率、基音频率为例介绍。
语速是对一段语音进行的计算;
能量、平均过零率、基音频率都是在整段语音信号的每一帧上进行的计算,故语音信号划分为多少帧,计算获得到少组数据(这些数据就是某一段语音信号的特征参数);
(3)统计量的计算:对于上述单个微观值,宏观量是没有意义的。相对于微观量的统计平均性质的宏观量称为统计量。
上述特征参数是以帧为单位进行提取的,需要以全局特征统计值的形式参与情感的识别。集全局统计指标有:平均值、极值、极值范围、方差、偏度、峰度、一阶导数或二阶导数等。
三:识别网络:常用的识别网络有:隐马尔可夫模型HMM、高斯混合模型GMM、支持向量机SVM、人工神经网络ANN。
入门级别建议使用SVM调通程序,这个最简单直接、好理解。
输入:每一类测试集的特征数据、类别标签,训练获得模型之后,再使用测试集进行情感类别的判断。
所谓的识别率=某一类情感(高兴)正确判断的语句/输入(高兴)测试集的全部语句。
比较适合入门参见的文献有:韩文静老师、赵力老师的综述性文章都很不错!易懂
推荐书籍(适合零基础入门语音识别):
张雪英《数字语音处理及MATLAB仿真》,有两个版本,后一版本是前一版本的更新。建议看版本2。
福利:偶尔发现版本1的电子版地址:https://zhidao.baidu.com/share/3ec7e505dd3d5d1f94a552b055046070.html