看了很多MFCC的资料,经常过一段时间就忘了。现在总结一下其中的要点,便于今后翻看。
MFCC(梅尔倒频谱系数)是在1980年由Davis和Mermelstein搞出来的。MFCC是一种人工(hand crafted)特征,可以用于语音识别等。当年在语音领域取得了重大的成就,后来出现了深度学习,这种deep learned特征就是另一说了。虽然现在深度学习如日中天,也取得了非常好的效果,但是MFCC仍然有很高的出现频率,甚至有把音频的MFCC作为RNN的输入再提特征的。
梅尔刻度产生,是由于人的听力对不同频率的声音变化的敏感性不同而提出的。具体地,人耳对于低频声音的变化要比高频敏感。所以对频率做一个非线性变换,得到梅尔刻度:
反之,
正向变换的函数图像为:
通过这个函数图像可以明显地看到,变换后,低频部分的差异被拉大(纵轴范围变大,即纵向拉长),而高频部分的差异被压缩(纵轴范围变小)。可以想象为,一把长度为5的尺子,上面所有的刻度点都右移不等,使得左边的刻度稀疏,右边稠密。
假设声音信号频率为16kHz。
通常每帧的长度为20~40ms,25ms是标准的。这意味着每帧有 0.025∗16000=400 0.025 ∗ 16000 = 400 个采样点。而分帧步长(frame step)通常为10ms,即160 samples;两帧之间有重叠。如果帧数不为偶数,通常还要padding。
下面的步骤就是对每帧进行操作,每帧会提取出12个MFCC。
假设我们的声音信号为 s(n) s ( n ) ,分帧后为 si(n) s i ( n ) , n n 为 1 1 ~ N N (400), i i 为 1 1 ~总帧数。 si(n) s i ( n ) 经过DFT之后得到 Si(k) S i ( k ) ,对应的功率谱为 Pi(k) P i ( k ) 。
其中 h(n) h ( n ) 是 N N sample long analysis window (e.g. hamming window), K K 是DFT的长度。每帧 si(n) s i ( n ) 的功率谱为
通常FFT为512个点,取前257个。
通常有20~40(标准是26)个三角滤波器,用来对2.中的能量谱进行滤波。由于上面说了,对每一帧用FFT得到257个点,所以这里会有26个长度为257的滤波器。
下面以10个梅尔滤波器为例,解释如何确定滤波器的形状。假设声音频率范围是300Hz到8000Hz,对应为401.25 Mels到2834.99 Mels。
1.把频率(Hz)转为Mel scale
2.假设现在盛博我们需要10个滤波器,所以加上两端点一共有12个点,即将频域分成了11份:
m(i) = 401.25, 622.50, 843.75, 1065.00, 1286.25, 1507.50, 1728.74, 1949.99, 2171.24, 2392.49, 2613.74, 2834.99
3.将上面的Mels转回Hz
h(i) = 300, 517.33, 781.90, 1103.97, 1496.04, 1973.32, 2554.33, 3261.62, 4122.63, 5170.76, 6446.70, 8000
4.在对应位置用三角滤波器进行滤波
这样就得到了一个10维的向量。注意,标准情况下应该是26个。
得到了26个倒谱系数(cepstral coefficents)。一般取第2-13个,即为MFCC