声学特征 PLP


PLP的由来

Linear prediction可以用来获得语音功率谱 P(ω) 的全极点模型 A(ω) ,也可以把LP看做获取 P(ω) 的频谱包络的手段,参考前面的文章
由于LP对待所有频率一视同仁,它不符合人耳的听觉机理,比如人耳对于高于800Hz的感知会下降,对于中间频段更敏感。
为了解决这个问题,Hermansky在进行LP之前修改语音的功率谱 P(ω) ,称为perceptual linear predictive。可以理解为更符合听觉感知的LP。

PLP流程

在LP之前修改 P(ω) ,需要的步骤见下图
声学特征 PLP_第1张图片

critical-band spectral resolution

首先在频率轴上将Hz转化为Bark,参考bark scale,500Hz以下跟频率近似线性关系,500Hz以上近似log关系
声学特征 PLP_第2张图片

Ω(ω)=6ln{ω/1200π+[(ω/1200π)2+1]0.5}

然后和critial-band masking curve Ψ(Ω) 进行卷积
Θ(Ωi)=Ω=1.32.5P(ΩΩi)Ψ(Ω)

equal-loudness preemphasis

为了模拟听觉对于不同频带敏感度的不同,使用equal-loudness curve对频谱进行预加重

Ξ[Ω(ω)]=E(ω)Θ[Ω(ω)]

其中 E(ω) 如下:
E(ω)=[(ω2+56.8106)ω4]/[(ω2+6.3106)2(ω2+0.38109)]

intensity-loudness power law

为了描述声音强度和感知响度之间的关系

Φ(Ω)=Ξ(Ω)0.33

参考

Perceptual linear predictive (PLP) analysis of speech

你可能感兴趣的:(声学模型)