声学特征 PNCC


特点

power-normalized cepstral coefficients相比于MFCC特征:
- 在噪声和混响场景下提升识别效果,尤其在训练语料是clean语音的时候
- 相比于MFCC,计算量提升34.6%

使用pncc相比mfcc,噪声和口音测试集可以得到10-15%的相对提升

细节

声学特征 PNCC_第1张图片
和MFCC/PLP特征的整体对比如上图

filter bank

相比于MFCC的triangular filters,PNCC使用gammatone filters,40维,截止频率分别是200/8000。
声学特征 PNCC_第2张图片
获得 P[m,l] ,m表示frame,l表示channel

medium-time power calculation

由于噪声的能量变化相比语音慢很多,所以更大的时间窗口可以得到更好的性能,所以对每一帧进行了平滑处理(左右2帧做平均)。

Q¯[m,l]=12M+1m=mMm+MP[m,l]

得到的 Q¯[m,l] 用于后面的噪声估计和补偿

asymmetric noise suppression

因为语音的能量相比噪声变化快,所以使用谱减法来过滤掉低频部分以达到抑制噪声的目的。
声学特征 PNCC_第3张图片
其中的temperal masking的引入可以减弱混响的影响,首先获得每个channel的moving peak,如果某一帧的能量低于这个peak曲线,缩小对应的能量。
获得 R¯[m,l]

spectral weight smoothing

在不同的channel之间做平滑。

s¯[m,l]=(1l2L1+1l=l1l2R¯[m,l]Q¯[m,l])

其中 l2=min(l+N,L) L 表示channel的个数, l1=max(lN,1) N 设为4
S¯[m,l] 通过medium-time power calculation实现了在时间维度上的平滑,通过spectral weight smoothing则实现了在频率维度上的平滑,时域是左右2帧,频域是左右4个channel
最后调制 P[m,l] 得到
T[m,l]=P[m,l]S¯[m,l]

mean power normalization

均值的获取使用online的形式

μ[m]=λμμ[m1]+1λμLl=0L1T[m,l]

归一化以后:
U[m,l]=kT[m,l]μ[m]

rate-level nonlinearity

相比于MFCC使用的log非线性函数,PNCC使用指数函数,更符合人耳听觉神经的压缩感知

V[m,l]=U[m,l]1/15

参考

Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition
http://www.cs.cmu.edu/~robust/archive/algorithms/PNCC_C

你可能感兴趣的:(声学模型)