Python之python_speech_features

主页:python_speech_features

mfcc:梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients)

百度百科:MFCC
MFCC原理详解:MFCC特征提取教程
参考:python_speech_features文档翻译

def mfcc(signal,samplerate=16000,winlen=0.025,winstep=0.01,numcep=13,
                 nfilt=26,nfft=512,lowfreq=0,highfreq=None,preemph=0.97,
     ceplifter=22,appendEnergy=True)
  • signal:输入的语音信号,N*1的array数组
  • samplerate:采样率
  • numcep:倒频谱返回的数量,默认13
  • 其他参数
  • 功能:计算一个音频信号的MFCC特征(默认13维特征)
  • 返回值:一个大小为numcep的numpy数组,包含着特征,每一行都包含一个特征向量。

delta:(一阶)差分系数、二阶差分(加速度)系数

MFCC特征向量描述了一帧语音信号的功率谱的包络信息,但是语音识别也需要帧之间的动态变化信息,比如MFCC随时间的轨迹,实际证明把MFCC的轨迹变化加入后会提高识别的效果。因此我们可以用当前帧前后几帧的信息来计算一阶差分系数二阶差分系数,计算第t帧的Delta需要t-N到t+N的系数,N通常是2。:

def python_speech_features.base.delta(feat, N)
  • feat:一个大小为特征数量的numpy数组,每一行都有一个特征向量 (mfcc的返回值)
  • N:对于每一帧,根据前后N帧计算delta特征
  • 功能:从特征向量序列计算delta特征。
  • 返回:一个大小为特征数量的numpy数组,包含有delta特征,每一行都有一个delta向量

你可能感兴趣的:(python)