用于深度神经网络的语音信号预处理

1. 预备知识(基础概念)

    详见 https://blog.csdn.net/shanx_s/article/details/52947007

    详见 https://blog.csdn.net/Barry_J/article/details/80996564

2. 读取音频文件并进行音频特征提取

    2.1 用audioread(”);函数读取电脑中的音频文件,参数是音频文件的路径:

                [sampledata,FS] = audioread('F:1.mp3');

    2.2 判断音频数据是否是双声道,如果是双声道则保留一个声道的数据,用calsample.m文件的函数完成此功能,程序如下:

function sample = calsample(sampledata,FS)
temp_sample = resample(sampledata,1,FS/22050);
[m,n] = size(temp_sample);
if (n == 2)
    sample = temp_sample(:,1);
else
    sample = temp_sample;
end
end

3. MFCC特征提取 (语音识别)

    简单可以分为如下:

  • 对音频信号预加重、分帧和加窗
  • FFT(快速傅里叶变换)得到频谱
  • 频谱通过Mel滤波器组得到Mel频谱
  • 在Mel频谱上面进行倒谱分析得到MFCC特征

详细参考: https://blog.csdn.net/yunnangf/article/details/78965446

实现的代码:

注:在提取MFCC参数之前需要加载并使用VOICEBOX工具包 

[x fs]=wavread('clip1.wav');
bank=melbankm(24,256,fs,0,0.4,'t');%Mel滤波器的阶数为24,fft变换的长度为256,采样频率为16000Hz
%归一化mel滤波器组系数
bank=full(bank);
bank=bank/max(bank(:));
for k=1:12			%归一化mel滤波器组系数
n=0:23;
dctcoef(k,:)=cos((2*n+1)*k*pi/(2*24));
end
w=1+6*sin(pi*[1:12]./12);%归一化倒谱提升窗口
w=w/max(w);%预加重滤波器
xx=double(x);
xx=filter([1-0.9375],1,xx);%语音信号分帧
xx=enframe(xx,256,80);%对x 256点分为一帧
%计算每帧的MFCC参数
for i=1:size(xx,1)
y=xx(i,:);
s=y'.*hamming(256);
	t=abs(fft(s));%fft快速傅立叶变换
t=t.^2;
	c1=dctcoef*log(bank*t(1:129));
c2=c1.*w';
m(i,:)=c2';
end
%求取一阶差分系数
dtm=zeros(size(m));
for i=3:size(m,1)-2
dtm(i,:)=-2*m(i-2,:)-m(i-1,:)+m(i+1,:)+2*m(i+2,:);
end
dtm=dtm/3;
%求取二阶差分系数
dtmm=zeros(size(dtm));
for i=3:size(dtm,1)-2
dtmm(i,:)=-2*dtm(i-2,:)-dtm(i-1,:)+dtm(i+1,:)+2*dtm(i+2,:);
end
dtmm=dtmm/3;
%合并mfcc参数和一阶、二阶差分mfcc参数
ccc=[m dtm dtmm];
%去除首尾两帧,因为这两帧的一阶差分参数为0
ccc=ccc(3:size(m,1)-2,:);
ccc
% subplot(2,1,1) 
% ccc_1=ccc(:,1);
% plot(ccc_1);title('MFCC');ylabel('幅值');
% [h,w]=size(ccc);
% A=size(ccc);
% subplot(212)    
% plot([1,w],A);
% xlabel('维数');
% ylabel('幅值');
% title('维数与幅值的关系')

不同MFCCs可能存在的差别:

  • Mel映射关系(如HTK方式与Slaney)
  • Mel滤波器的归一化
  • DCT系数计算方式
  • Mel带数量与宽度
  • Mel频率范围
  • 倒谱提升方式-rasta、htk、或者无
  • 短时傅里叶变换各个参数
  • 抖动或DC消除
  • 预加重

关于mfcc的对比,可以参看这里,还可以看下这篇论文 Comparative_evaluation_of_various_MFCC_implementat 

你可能感兴趣的:(语音处理)