MFCC特征提取

一、MFCC概述

    在语音处理领域里,梅尔频率倒谱(mel-frequency cepstrum简称MFC)表示一个语音的短时功率谱,是一个语音的对数功率谱在频率的一个非线性梅尔刻度上进行线性余弦转换所得,而所有的梅尔频率倒谱系数(Mel-frequency cepstral coefficients  简称MFCC)共同的组成一个MFC。

    mfcc是为了完成声音识别而开发出来的一套算法,基于人是如何识别声音的。首先明确四点:

  1.语音信号的大部分信息包含在低频分量中;

  2.语音信号的大部分信息包含在低幅部分中;

  3.人耳听到的声音高低与声音频率不成线性关系,但是与该声音频率的对数近似成线性正比关系;

  4.人并不能区分所有频率分量,只有两个频率分量相差一定带宽时(1000hz以下,带宽恒定100hz;1000hz以上,带宽与中心频率成指数关系),人类才能区分,否则人就会把两个音调听成一个,这称为屏蔽效应,带宽称为临界带宽;(中心频率:声音高低主要与频率有关,由于可听声的声频太宽(从20Hz到20000Hz),为便于进行频率分析,将其分为若干段,称为频程。每频程的上限与下限频率的几何平均值称为该频程的中心频率)

 MFCC在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的研究成果,采用这种技术语音识别系统的性能有一定提高。如果现在给我们一段语音,我们首先得到它的频谱包络(连接所有共振峰值点的平滑曲线,共振峰值携带了声音的辨识属性,如同人的身份证),但是对于人类来说,人类听觉的感知至聚焦在某些特定的区域而不是整个频谱包络,而MEL频率分析就是基于人类听觉感知实验的。实验观测发现人耳就像一个滤波器组一样,它只关注某些特定的频率分量。它在低频区域有很多的滤波器,在高频区域则较少。

梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)与频率的关系可用下式近似表示:


     式中f为频率,单位为Hz。下图展示了Mel频率与线性频率的关系:

              MFCC特征提取_第1张图片

人耳的听觉特性与Mel频率的增长一致。与实际频率在1000Hz以下呈现线性分布,1000Hz以上呈现对数增长。

二、 MFCC的提取过程

基本流程图如下所示:

                    MFCC特征提取_第2张图片

首先对象信号进行预加重,分帧,加窗,以及FFT傅里叶变换。然后在计算功率谱,将得到的功率谱通过三角带通滤波器,滤波输出的结果利用mel域与线性频率的关系式转为对数形式。最后进行DCT变换,得到MFCC系数。N/3 MFCC系数+ N/3 一阶差分参数+ N/3 二阶差分参数)+帧能量(此项可根据需求替换)就构成了N为的MFCC特征。

2.1. 预加重

预加重处理其实是将语音信号通过一个高通滤波器:

                  

式中μ的值介于0.9-1.0之间,我们通常取0.97。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。


2.2.三角带通滤波器

  三角形带通滤波器组的设计过程如下:

    假设语音信号的采样频率,帧长N=256,滤波器个数K=22
    由此可得语音信号的最大频率为:

              

根据公式:

           

 

可以求得出最大的Mel频率为:   

 由于在Mel刻度范围内,各个三角滤波器的中心频率是相等间隔的线性分布。由此,可以计算两个相邻三角滤波器的中心频率的间距为:

        

因此,各三角形滤波器在mel刻度上的中心频率可以由Mel频率与线性频率的关系式求出。

由上面的中心频率可以计算出对应的线性刻度上的频率。如下图所示:

         MFCC特征提取_第3张图片

 将功率谱通过一组Mel尺度的三角形滤波器组,定义一个有K个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,K。K通常取22-26。各 f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽,

每一个三角形滤波器的中心频率c(l) 在Mel频率轴上等间隔分布。设o(l),c(l),h(l) 分别是第l 个三角形滤波器的下限,中心,和上限频率,则相邻三角形滤波器之间的下限,中心,上限频率的关系如下:c(l)=h(l-1)=o(l+1);  如图所示:

                                       MFCC特征提取_第4张图片

2.3 MFCC系数计算

计算每个滤波器组输出的对数能量为:

     

经离散余弦变换(DCT)得到MFCC系数:

     

 将上述的对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数,通常取12-16。这里M是三角滤波器个数。

2.4. 对数能量

此外,一帧的音量(即能量),也是语音的重要特征,而且非常容易计算。因此,通常再加上一帧的对数能量(定义:一帧内信号的平方和,再取以10为底的对数值,再乘以10)使得每一帧基本的语音特征就多了一维,包括一个对数能量和剩下的倒频谱参数。

注:若要加入其它语音特征以测试识别率,也可以在此阶段加入,这些常用的其它语音特征包含音高、过零率以及共振峰等。

2.5. 动态差分参数的提取(包括一阶差分和二阶差分)

标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。实验证明:把动、静态特征结合起来才能有效提高系统的识别性能。差分参数的计算可以采用下面的公式:

(8)

式中,dt表示第t个一阶差分,Ct表示第t个倒谱系数,Q表示倒谱系数的阶数,K表示一阶导数的时间差,可取1或2。将上式的结果再代入就可以得到二阶差分的参数。


三、Matlab实现

% MFCC implement with Matlab %
[x fs]=wavread('test.wav');
bank=melbankm(24,256,fs,0,0.4,'t'); %Mel滤波器的阶数为24,FFT变换的长度为256,采样频率为16000Hz
%归一化Mel滤波器组系数
bank=full(bank); %full() convert sparse matrix to full matrix
bank=bank/max(bank(:));
for k=1:12
    n=0:23;
    dctcoef(k,:)=cos((2*n+1)*k*pi/(2*24));
end
w=1+6*sin(pi*[1:12]./12);%归一化倒谱提升窗口
w=w/max(w);%预加重滤波器
xx=double(x);
xx=filter([1-0.9375],1,xx);%语音信号分帧
xx=enframe(xx,256,80);%对xx 256点分为一帧
%计算每帧的MFCC参数
for i=1:size(xx,1)
    y=xx(i,:);
    s=y'.*hamming(256);
    t=abs(fft(s));%FFT快速傅里叶变换
    t=t.^2;
    c1=dctcoef*log(bank*t(1:129));
    c2=c1.*w';
    m(i,:)=c2;
end
%求一阶差分系数
dtm=zeros(size(m));
for i=3:size(m,1)-2
    dtm(i,:)=-2*m(i-2,:)-m(i-1,:)+m(i+1,:)+2*m(i+2,:);
end
dtm=dtm/3;
%求取二阶差分系数
dtmm=zeros(size(dtm));
for i=3:size(dtm,1)-2
    dtmm(i,:)=-2*dtm(i-2,:)-dtm(i-1,:)+dtm(i+1,:)+2*dtm(i+2,:);
end
dtmm=dtmm/3;
%合并mfcc参数和一阶差分mfcc参数
ccc=[m dtm dtmm];
%去除首尾两帧,以为这两帧的一阶差分参数为0
ccc=ccc(3:size(m,1)-2,:);
ccc;
subplot(2,1,1);
ccc_1=ccc(:,1);
plot(ccc_1);title('MFCC');ylabel('幅值');
[h,w]=size(ccc);
A=size(ccc);
subplot(2,1,2);
plot([1,w],A);
xlabel('维数');ylabel('幅值');
title('维数与幅值的关系');

       

         




你可能感兴趣的:(音频处理)