欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~
本节针对《现代语音信号处理》这本书的第四章,对应短时傅里叶分析部分。
傅里叶分析是分析线性系统和平稳信号稳态特性的有力手段,这种以复指数函数为奇函数的正交变换在理论上完善并便于理解。通过傅里叶分析可使得信号的某些特性变得很明显。
在语音信号分析中,傅里叶分析一方面因为稳态语音的产生模型由线性系统组成,此语音系统被随时间做周期变化或随机变化的源所激励,因而系统输出的谱反映了激励谱与声道频率特性。另一方面,语音信号的频谱具有非常明显的声学意义们可以得到如共振频率、带宽等重要的语音特征。
由第二节可知,语音信号是非平稳过程,因此短时分析应用到傅里叶分析中就是短时傅里叶分析(STFT),相应的频谱为短时谱。广义上讲,语音信号的频域分析包括频谱、功率谱、倒谱、频谱包络分析等。常用的分析方法有傅里叶分析、带通滤波器组、LPC等。本节针对短时傅里叶分析。
语音信号是局部平稳的,因此可对一帧语音进行傅里叶变换,此时得到短时傅里叶变换,其定义为:
其中下表n用于区别与常规的傅里叶变换,w(n-m)是窗函数序列。可见,短时傅里叶变化是窗选语音信号的傅里叶变换。公式中有两个自变量n和w,因此它既是关于时间n的离散函数又是关于角频率w的连续函数。令 w=2πk/N w = 2 π k / N ,得到离散的短时傅里叶变换:
可以看做是 Xn(ejw) X n ( e j w ) 在频域的取样。对其可以有两种理解:
根据功率谱的定义,短时功率谱 Sn(ejw) S n ( e j w ) 与短时傅里叶变换的关系为:
可以看出功率谱是短时自相关函数的傅里叶变换。
当信号和窗函数的傅里叶变换存在时,且n固定。根据频域卷积定理,将 Xn(ejw) X n ( e j w ) 改写为:
其中W()和X()对应于x(n)和w(n)的傅里叶变换。
另一方面还可从滤波器角度对短时傅里叶变换进行理解。只需要把公式改写一下:
因此可以将w(n)看做滤波器的单位函数响应。对应的实现框图如下图所示:
用滤波器实现短时傅里叶变换的主要优点在于,可利用线性滤波器的一些研究成果,从而使得实现非常简单。线性滤波器分为FIR和IIR、因果的和非因果的,类似的也可以将短时傅里叶变换分为有限宽度和无限宽度窗、因果窗和非因果窗等类型。
语音信号乘以窗函数时,窗口边缘两端不应急剧变化,波应缓慢降为0。因此窗函数应有如下特性:
另一方面,窗口宽度对傅里叶变换影响也很大,N值越大则 W(ejw) W ( e j w ) 的主瓣越窄,但N过大那分帧就失去了意义,尤其是当N大于因素长度时。因此应折中选择窗宽。
语谱图是语音频谱分析视图。语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据的能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。
在语音处理中采用不同的窗长同时得到两种语谱图,分别为宽带语谱图记忆窄带语谱图。前者具有高时间分辨率,后者具有高频率分辨率。
对于宽带语谱图的典型谱包括:
对于窄带语谱图的典型谱包括:
下图为典型的窄带语谱图
现代语音信号处理[胡航 电子工业出版社] 第四章 短时傅里叶分析