音频-特征提取:①幅度谱(短时傅里叶变换谱/STFT)、②梅尔频谱(mel-spectrogram)、③梅尔倒谱(MFCC)【在梅尔频谱上取对数,做DCT(离散余弦变换)变换,得梅尔倒谱】
原始信号从音频文件中读取出来的原始语音信号通常称为rawwaveform,是一个一维数组,长度是由音频长度和采样率决定,比如采样率Fs为16KHz,表示一秒钟内采样16000个点,这个时候如果音频长度是10秒,那么rawwaveform中就有160000个值,值的大小通常表示的是振幅。一、幅度谱(spectrogram)/STFT声音信号是一维信号,直观上只能看到时域信息,不能看到频域信息。通过傅