语音情感识别--理论篇

这是之前看的一些论文,然后提炼一下可能经常想看到的东西吧。
语音情感识别主要包括语音语料库的采集,语音信号预处理,语音情感特征提取,语音情感分类。以上为语音情感识别主要步骤。

语音情感特征提取(1):
选择和提取合适的语音情感特征对提高识别准确率来说非常重要。目前,对语音信号的特征分析主要包括语音信号数字化,时域和频域的相关分析以及Gabor变换等。常用于语音情感识别研究的声学特征主要有韵律特征,相关谱特征和音质特征,也有一些研究是基于融合特征以及i-vector特征等展开进行的。例如:对于语音信号,提取得到它的韵律特征和MFCC特征等情感特征。

研究表明:语音中所包含的情感特征主要包含两个方面:声学特征以及语言学特征。最能体现说话人情感的信息主要存在于语音信号的韵律特征和音质特征中,韵律特征主要包含:基音频率,基音范围,声道的横截面面积,语音强度和语音速率等,音质特征包含有:共振峰,梅尔频率倒谱系数(MFCC),线性预测系数(LPC)等。

语音情感特征提取(2):
对语音情感特征提取,主要考虑了语音的短时韵律特征,频谱特征以及其它有关的统计学相关的特征,例如典型的语音情感特征是基音频率,基音范围,共振峰,声道的横截面面积,梅尔频率倒谱系数,语音强度和语音速率等。还有另外一些语音情感特征,比如共振峰,声道的横截面面积,梅尔频率倒谱系数,Teager能量算子等,这些特征人们不能直观地感受到,但是这些特征对人类情感的识别也有着至关重要的作用。

韵律特征的提取:
在进行语音情感特征的提取之前,往往需要对语音信号进行预处理,预处理的措施主要有:滤波,降噪,预加重,分帧,加窗等。对于语音信号来说,有用的信息多集中在某些频段,所以可以先将其经过滤波已去除掉一些无用的频段。接着通过一个响应函数为一阶有限激励响应的高通滤波器。

MFCC特征的提取:
在语音处理过程中,梅尔频率倒谱是一种语音短时功率谱,而梅尔频率倒谱系数就是由一系列完整组成梅尔频率倒谱的系数所组成的。梅尔频率倒谱系数被广泛应用于说话人识别和语音情感识别领域,这是由其在区别人声方面的出色特性所决定的。梅尔频率倒谱系数完全独立于信号,对输入的语音信号不做任何的假定与限制,而且其是在听觉模型的研究基础上所提取出来的一种特征,对人耳的听觉特性有更好的体现,相比于一些基于声道模型的特征参数如线性预测倒谱系数来说,其鲁棒性更好,而且更为重要的一点是其能在低信噪比情况下达到不错的识别效果。

写完这个要吐血了,感觉回到了当初写本科毕业论文的时候,一天写完的,上午构思,下午花一下午写完了。第一次查重率是百分之十八点四,第二次查重率是百分之四点几,然后一轮答辩通过。

OK,这其实也就是写了一些理论性的东西,但是我怕自己某时会想看到这些内容,所以就码在这了~

你可能感兴趣的:(机器学习and深度学习,语音识别,Python,语音情感识别,理论篇)