MFCC语音识别特征

MFCC全程为mel frequency cepstral coefficients (梅尔频率倒谱系数)

过程如下所示:

MFCC语音识别特征_第1张图片


1.首先是Preemphasis目的是boosting,增加高频能量,从而提高phone的的识别率

2.然后是加窗,加窗的目的是让语音信号在一帧内统计特性是固定的,便于构建phone或者subphone分类器。过程如下

MFCC语音识别特征_第2张图片

上图所示:每帧窗口25ms,帧位移为10ms

实际中加窗都用hamming 进行加窗,为的是避免在窗口边界处不连续导致后面傅里叶分析时出现问题,

Hamming 加窗算法和矩形加窗如下所示

MFCC语音识别特征_第3张图片

对应的效果图如下所示(对比边界处,可以看到hamming加窗是连续的,而矩阵加窗是非连续的)

MFCC语音识别特征_第4张图片

3.接下来是Discrete Fourier Transform离散傅里叶变换,目的是得到不同频带,每帧信号所包含的能量。

如下图所示是25ms帧元音[iy]对应的DFT变换

MFCC语音识别特征_第5张图片

4.接着是Mel filter bank and log,人耳对1000Hz以上的声音不是很敏感,因此对1000Hz以上的进行log操作,对1000以下的做线性操作,从而提高识别性能

公式如下:


如图所示:

MFCC语音识别特征_第6张图片

5.接着是倒谱,即离散傅里叶变换逆变换(The Cepstrum: Inverse Discrete Fourier Transform )

目的是提高语音识别性能,公式如下所示:取前12个参数

MFCC语音识别特征_第7张图片

6.最后是能量和加速度(Deltas and Energy )

声音信号具有连续特性,所以在5的基础之上,添加了速度和加速度特征信号

能量信号计算公式如下:

MFCC语音识别特征_第8张图片

速度特征计算如下:

MFCC语音识别特征_第9张图片

综上所示,39维MFCC特征包括如下信息

MFCC语音识别特征_第10张图片


参考文献:

[1]http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/#deltas-and-delta-deltas

你可能感兴趣的:(语音识别,声学特征)