语音信号处理:预处理【预加重、分帧、加窗】

语音信号处理:预处理【预加重、分帧、加窗】_第1张图片

一、预处理

预加重是语音信号处理的前提,主要目的是提升语音信号中的高频分量。

人的发生系统是从肺开始,肺作为能量源,气流通过声带,引发周期性震动(元音),能量经过咽、口腔、唇、舌, 形成最后的声音。元音能量主要集中在1KHz以下,并且以6dB/十倍频的速度下降。辅音一般不引起声带振动,频率更高。其中口唇辐射对低频影响比较小,但是对高频段影响比较大, 预加重就是为了消除这种影响,提升高频分量。

在语音信号中,提升高频分量的目的主要是因为高频分量(即辅音)包含了更多的信息,而元音的频率普遍较低。功率谱随频率的增加而减小,其大部分能量集中在低频范围内。这就造成消息信号高频端的信噪比可能降到不能容忍的程度。

总之,预加重保持信号的低频部分不变,提升信号的高频部分;而去加重衰减信号的低频部分,保持高频部分。预加重/去加重的目的都是提升信号中高频部分的能量,以补偿信道对高频部分衰减过大。

二、分帧

从宏观上看,语音信号是一个非平稳信号,信号(信号对应的特征及其参数)每时每刻都在变化。但是根据人体的发声机理来看,肌肉的运动过程(主要是口腔肌肉变化、唇舌的位置变化)相对于信号的变化是非常缓慢的,因此,从很短的时间段上,又可以认为语音信号时准平稳信号,即短时平稳信号。

基于此,语音信号处理的全过程都是基于短时平稳这一

你可能感兴趣的:(语音信号处理,语音识别,人工智能)