[语音处理] 声谱图(spectrogram)FBank(Mel_spectrogram)MFCC(Mel倒谱)到底用哪个作为NN输入?

一般来说一段音频先是经过傅里叶变换得到spec,然后经过三角滤波得到mel_spec,最后通过倒谱得到mfcc,这个过程中feature的维度在不断降低,这就意味着可能会存在信息上的损失。

那么在nn中到底该选哪个作为输入呢?

  1. DNN做声学模型时,一般用fbank,不用mfcc,因为fbank信息更多 (mfcc是由mel fbank有损变换得到的)。
  2. mfcc一般是GMM做声学模型时用的,因为通常GMM假设是diagonal协方差矩阵,而cepstral coefficient更符合这种假设。
  3. linear spectrogram里面冗余信息太多了,维度也高,所以一般都不用。

参考:https://www.zhihu.com/question/269258229

 

你可能感兴趣的:(语音处理)