语音特征提取: MFCC的理解

文章目录

  • 1. 一般wav提取特征的方式:
  • 2. 什么是MFCC:
  • 3. 什么求倒谱:
  • 4. 什么是频谱的包络:
  • 5.如何获取频谱的包络:

1. 一般wav提取特征的方式:

语音特征提取: MFCC的理解_第1张图片

2. 什么是MFCC:

在mel-spectrum上取对数,再做傅里叶变换得到的特征,就是MFCCs。

这个过程可以概括为对mel-spectrum求倒谱。

3. 什么求倒谱:

求倒谱 就是对频谱取对数,再做傅里叶变换,又回去了。

实际上是为了获取频谱的包络,包络这个东西是非常用途很广。

4. 什么是频谱的包络:

就是频谱里面主要频率成分的连线的平滑曲线,就是一段声音里面频率振幅高的那些频率的连线。
包络就是频率主要成分振幅的变化。

5.如何获取频谱的包络:

包络就是频率主要成分振幅的变化。可以通过幅度解调的方法。就是这个变化是低频的。
对频谱做傅里叶变化,过滤低频的成分,就是包络的信息。

你可能感兴趣的:(机器学习,深度学习)