现代语音信号处理笔记 (三)

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~

本节针对《现代语音信号处理》这本书的第四章,对应短时傅里叶分析部分。

时域分析

傅里叶分析是分析线性系统和平稳信号稳态特性的有力手段,这种以复指数函数为奇函数的正交变换在理论上完善并便于理解。通过傅里叶分析可使得信号的某些特性变得很明显。

在语音信号分析中,傅里叶分析一方面因为稳态语音的产生模型由线性系统组成,此语音系统被随时间做周期变化或随机变化的源所激励,因而系统输出的谱反映了激励谱与声道频率特性。另一方面,语音信号的频谱具有非常明显的声学意义们可以得到如共振频率、带宽等重要的语音特征。

由第二节可知,语音信号是非平稳过程,因此短时分析应用到傅里叶分析中就是短时傅里叶分析(STFT),相应的频谱为短时谱。广义上讲,语音信号的频域分析包括频谱、功率谱、倒谱、频谱包络分析等。常用的分析方法有傅里叶分析、带通滤波器组、LPC等。本节针对短时傅里叶分析。

短时傅里叶变换

语音信号是局部平稳的,因此可对一帧语音进行傅里叶变换,此时得到短时傅里叶变换,其定义为:

Xn(ejw)=m=x(m)w(nm)ejwm X n ( e j w ) = ∑ m = − ∞ ∞ x ( m ) w ( n − m ) e − j w m

其中下表n用于区别与常规的傅里叶变换,w(n-m)是窗函数序列。可见,短时傅里叶变化是窗选语音信号的傅里叶变换。公式中有两个自变量n和w,因此它既是关于时间n的离散函数又是关于角频率w的连续函数。令 w=2πk/N w = 2 π k / N ,得到离散的短时傅里叶变换:

Xn(ej2πkN)=Xn(k)=m=x(m)w(nm)ej2πkmN,    0kN1 X n ( e j 2 π k N ) = X n ( k ) = ∑ m = − ∞ ∞ x ( m ) w ( n − m ) e − j 2 π k m N ,         0 ≤ k ≤ N − 1

可以看做是 Xn(ejw) X n ( e j w ) 在频域的取样。对其可以有两种理解:

  • 当n固定时,他们是序列w(n-m)x(m)的傅里叶变换。
  • 当w或k固定时,可看做时间n的函数,是信号序列和窗口函数的卷积,此时窗口相当于一个滤波器。

根据功率谱的定义,短时功率谱 Sn(ejw) S n ( e j w ) 与短时傅里叶变换的关系为:

Sn(ejw)=Xn(ejw)Xn(ejw)=|Xn(ejw)|2 S n ( e j w ) = X n ( e j w ) X n ∗ ( e j w ) = | X n ( e j w ) | 2

可以看出功率谱是短时自相关函数的傅里叶变换。

当信号和窗函数的傅里叶变换存在时,且n固定。根据频域卷积定理,将 Xn(ejw) X n ( e j w ) 改写为:

Xn(ejw)=12πππW(ejθ)ejnθX(ej(w+θ))dθ X n ( e j w ) = 1 2 π ∫ − π π W ( e j θ ) e j n θ X ( e j ( w + θ ) ) d θ

其中W()和X()对应于x(n)和w(n)的傅里叶变换。

另一方面还可从滤波器角度对短时傅里叶变换进行理解。只需要把公式改写一下:

Xn(ejw)=m=[x(m)ejwm]w(nm) X n ( e j w ) = ∑ m = − ∞ ∞ [ x ( m ) e − j w m ] w ( n − m )

Xn(ejw)=Xn(ejw)|ejθn(w)=an(w)jbn(w) X n ( e j w ) = X n ( e j w ) | e j θ n ( w ) = a n ( w ) − j b n ( w )

因此可以将w(n)看做滤波器的单位函数响应。对应的实现框图如下图所示:

现代语音信号处理笔记 (三)_第1张图片

用滤波器实现短时傅里叶变换的主要优点在于,可利用线性滤波器的一些研究成果,从而使得实现非常简单。线性滤波器分为FIR和IIR、因果的和非因果的,类似的也可以将短时傅里叶变换分为有限宽度和无限宽度窗、因果窗和非因果窗等类型。

窗口的选择

语音信号乘以窗函数时,窗口边缘两端不应急剧变化,波应缓慢降为0。因此窗函数应有如下特性:

  • 频率分辨率高,即主瓣狭窄尖锐。
  • 通过卷积,在其他频率上产生的频谱泄露少,即旁瓣衰减大。

另一方面,窗口宽度对傅里叶变换影响也很大,N值越大则 W(ejw) W ( e j w ) 的主瓣越窄,但N过大那分帧就失去了意义,尤其是当N大于因素长度时。因此应折中选择窗宽。

语谱图

语谱图是语音频谱分析视图。语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据的能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。

在语音处理中采用不同的窗长同时得到两种语谱图,分别为宽带语谱图记忆窄带语谱图。前者具有高时间分辨率,后者具有高频率分辨率。

对于宽带语谱图的典型谱包括:

  • 宽横杠:表示元音的共振峰位置,即图中与垂直频率轴平行的较宽黑杠。
  • 垂直黑条:表示塞音或摩擦音,即图中与垂直频率轴平行的较窄的黑条。
  • 摩擦乱纹:代表摩擦音或送气音的送气部分,表现为无规则的乱纹。

现代语音信号处理笔记 (三)_第2张图片

对于窄带语谱图的典型谱包括:

  • 窄横条:代表元音的基频及各次谐波,表现为图中与水平轴平行的细线条。
  • 无声间隙段:对应语音停顿间隙,表现为空白区,在窄带和宽带语谱图中均存在。

下图为典型的窄带语谱图

现代语音信号处理笔记 (三)_第3张图片

Ref

现代语音信号处理[胡航 电子工业出版社] 第四章 短时傅里叶分析

你可能感兴趣的:(ASR)