ASR声学特征

声学特征类型

声学特征类型包括:Fbank (FilterBank) 特征、梅尔频率倒谱系数MFCCs (Mel-Frequency Cepstral Coefficeitns) 特征、PLP特征。目前更为常见的是使用Fbank和MFCCs特征,下表是两种特征的对比。

特征类型 提取流程 应用场景 常见特征维度
Fbank 分帧->傅立叶变换FFT->梅尔滤波组 NN模型(NN-HMM/CTC/RNNT/LAS等) 40/80
MFCCs Fbank->离散余弦变换DCT GMM-HMM模型 13

MFCCs是在Fbank的基础上做了离散余弦变化DCT (Discrete Cosine Transform),DCT的作用是去掉特征维间的相关性,由于NN模型能够对特征维间的相关性建模,所以在使用NN建模时,一般采用Fbank特征,使用传统GMM-HMM建模时常采用MFCCs特征。

Fbank特征提取

通过命令compute-fbank-feats提取Fbank特征,compute-mfcc-feats提取MFCCs特征,通过–config传入配置参数文件

compute-fbank-feats/compute-mfcc-feats --config featrue.conf 

其中配置文件featrue.conf文件如下,dither默认值为1,作用是在计算滤波器系数能量时加入随机扰动,防止能量为0的情况出现,会导致同一条音频的输出特征前后不一致。如果需要保持一致,要在配置文件中设置–dither=0。

--use-energy=false 
--num-mel-bins=40
--num-ceps=40
--low-freq=20
--high-freq=-400
--dither=1

你可能感兴趣的:(speech,语音识别,声学)