现代语音信号处理笔记 (五) 线性预测分析

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~

本节针对《现代语音信号处理》这本书的第六章,对线性预测分析应部分。

线性预测分析

线性预测(Linear Prediction COding, LPC)可及精确地估计语音参数,其基本思想是一个语音的取样可用过去若干语音取样的线性组合来逼近。通过使得实际语音取样与LPC取样间差值的平方和最小,即进行LMS逼近,可决定唯一的一组预测系数。而他们就是线性组合中的加权系数。LPC用于语音信号处理,不仅有预测功能,而且提供了一个非常好的声道模型。利用其参数可以做很多如降低传输码率、解混响等。线性分析预测参数包括LPC、PARCOR以及LSP参数等多种。

线性预测分析的基本原理

LPC分析的基本原理是将被分析的信号用一个模型表示,即将信号看做一个模型的输出,这样就可以用模型参数描述信号。通常模型中只包含有限个极点而没有零点,此时系统函数为:

H(z)=G1Pi=1αiZ1 H ( z ) = G 1 − ∑ i = 1 P α i Z − 1

这种模型称为全极模型或AR模型。式中,各系数 αi α i 和增益G为模型参数,而 αi α i 是实数,称为LPC系数。这样信号可用有限数目参数构成的信号模型表示。LPC分析就是根据已知的信号s(n)对参数 αi α i 和G的估计。线性预测的基本问题是由语音信号直接决定一组预测器系数,在使预测误差在某个准则下最小,若采用LSME准则,就得到著名的LPC算法。

对于鼻音和摩擦音,声学理论表明,声道传输函数既有极点又有零点。如模型阶数O足够大,可用全极点模型金斯表示极零点模型。因为一个零点可以用多个极点近似,即:

1αz1=11+αz1+α2z2+α3z3+ 1 − α z − 1 = 1 1 + α z − 1 + α 2 z − 2 + α 3 z − 3 + …

如分母多项式收敛足够快,只要取前几项就可以,所以全极点模型为实际应用提供了合理近似。

根据上述模型化思想,可对语音信号建立模型,如下图所示,其中将声门激励、声道及辐射的全部谱效应简化为一个时变数字滤波器来等效,其系统函数为H(z):

现代语音信号处理笔记 (五) 线性预测分析_第1张图片
对于语音信号,确定了LPC系数后,根据H(z)可得到其频率特性的估值,即LPC谱:

H(ejw)=G1Pi=1αiejwi H ( e j w ) = G 1 − ∑ i = 1 P α i e − j w i

LPC谱的特点为:对浊音信号谐波成分处匹配效果要远好于谐波之间,这有LMSE准则决定,因而其反应的是谱包络。LPC谱可以很好的表示共振峰结构,而不出现二外的峰值和起伏。但当不满足全极模型假设是,如信号收到噪声污染,那LPC谱的质量也将下降。对LPC参数数字化时,应采取抗混叠措施。

在建立线性预测方程组时需要采用逆滤波法将原模型的非线性方程转化为线性的,根据LMS准则,线性预测过程就是找到一组预测系数,使得 σ2e σ e 2 最小。LPC标准方程为:

i=1Pα̂ iΦ(j,i)=Φ(j,0),      1jP ∑ i = 1 P α ^ i Φ ( j , i ) = Φ ( j , 0 ) ,             1 ≤ j ≤ P

其中

Φ(j,i)=ns(ni)s(nj),      1jP,1iP Φ ( j , i ) = ∑ n s ( n − i ) s ( n − j ) ,             1 ≤ j ≤ P , 1 ≤ i ≤ P

即由P个方程组成的有P个未知数的方程组,求解方程可得 α̂ i α ^ i Φ(j,i) Φ ( j , i ) 由输入语音决定。

短时预测均方误差 En E n 为:

En=Φ(0,0)i=1Pα̂ iΦ(0,i) E n = Φ ( 0 , 0 ) − ∑ i = 1 P α ^ i Φ ( 0 , i )

因而最小均方误差由一个固定分量以及一个依赖于预测系数的分量组成。对应线性预测增益为 G=En G = E n

为求解最佳预测器系数,需先计算 Φ(i,j) Φ ( i , j ) ,再按LPC标准方程求出 α̂ i α ^ i 。因而从原理上LPC分析非常直接了当,但计算 Φ(i,j) Φ ( i , j ) 及方程组的求解都十分复杂。常用的线性预测分析揭发有自相关和协方差法、格型法等。

线性预测分析的应用

LPC谱估计

LPC系数可认为是一个全极点滤波器系统函数分母多项式的系数,而该系统是声道响应、声门脉冲形状及抠鼻辐射的综合模拟。给定一组预测期系数喉,可得到全极点线性滤波器的频率特性。其频率特性曲线会在共振峰频率去出现峰值,因此LPC可以看做一种短时谱估计法。可以证明,若信号的s(n)为P阶AR模型,则:

|H(ejw)|2=|S(ejw)|2 | H ( e j w ) | 2 = | S ( e j w ) | 2

式中, H(ejw) H ( e j w ) 是模型H(z)的频率特性,简称为LPC谱。S为信号谱,
|S(ejw)|2 | S ( e j w ) | 2 为其功率谱。因为语音信号并非AR模型,因此H只能是S的一个估计,但又因为一个零点可用无穷多个极点逼近,即极零模型可以用无穷高阶全极点模型逼近。因此,尽管语音信号作为ARMA(自动滑动平均)模型即零点模型,但只要阶数P足够大,总能用全极点模型谱以人一笑的误差逼近语音信号谱。基于以上讨论,参数P可有效控制所得谱的平滑度。下图给出不同阶数P的LPC谱。显然,P增加时更多的谱细节被保存。因为目的是只得到声门脉冲、声道辐射组合效应谱,因而P的选择应使得共振峰谐振点及一般普形状得以保持。P的选取原则是:保证有足够的极点模拟声道谐振结构。通常其在10以上时,短时谱的显著峰值部分基本可反映出来。

现代语音信号处理笔记 (五) 线性预测分析_第2张图片

LPC复倒谱

LPC系数是线性预测分析的基本参数,可以将这些系数转换为其他参数,以得到语音的其他代替表示方法。LPC系数可表示为LPC模型系统冲激响应的复倒谱

设由LPC得到的声道模型系统函数为:

H(z)=11+Pk=1αkzk H ( z ) = 1 1 + ∑ k = 1 P α k z − k

设其单位冲击响应为h(n),则:

H(z)=n=1h(n)zn H ( z ) = ∑ n = 1 ∞ h ( n ) z − n

而后就可以按照求复倒谱的公式,求h(n)的复倒谱 ĥ (n) h ^ ( n ) ,该复倒谱称为LPC复倒谱。LPC复倒谱分析的最大优点是运算量小,仅为FFT用最小相位信号法求复倒谱的一半。LPC复倒谱系数也成为LPCC,是语音识别中常用的特征矢量。

总结一下,为估计语音信号的短时包络谱,已有三种方法:

  • 由LPC系数估计。
  • 由LPCC估计。
  • 先用最小相位信号法求复倒谱,再用低复倒谱窗取出短时包络信息。该方法用波形直接计算得到倒谱。为了与LPCC相区别,也成为FFT倒谱。

线谱对(LSP)分析

线谱对分析是一种频域参数分析方法,这种LPC方法求解的模型参数为线谱对(LSP, Line Spectrum Pair)。LSP在数学上等价于其他LPC参数,如 αi α i 。如将声道视为由P+1段声管级联而成,则LSP表示声门完全开启或完全闭合下声管的谐振频率。它也可以用于估计语音的基本特性。因为其为频域参数,因而与语音信号的谱包络的峰联系更为密切。同事LSP有良好的量化和差值特性,因而在LPC声码器中得到应用。目前,表示LPC参数最有效的方式为LSP,它的一些特性比其他系数更有吸引力。

LPC分析与格型法分析类似,也是以全极点模型为基础。线谱对分析的基本出发点是通过两个z变换P(z)和Q(z),将A(z)(误差传递函数)的P个零点映射到单位圆上,以使这些零点直接用频率w反应,而P(z)和Q(z)各提供P/2个零点频率。LSP参数的求解有代数方程式求根和DFT方法等。

Ref

现代语音信号处理[胡航 电子工业出版社] 第六章 线性预测分析

你可能感兴趣的:(ASR)