语音信号处理-基本概念(一):音频长度(s)、采样率(Hz;如16000)、帧长(25ms)、帧数、帧移(12.5ms)、hop_size(每帧移动的样本点数=16000*12.5/1000=200)
需要明白一点,mel帧数*帧移=音频长度(采样点个数,可换算为音频时长,具体怎么做不用说了吧)因此,对于22050采样率,hopsize大小设置为256,那么对应的mel-spectrogram需要上采样256倍如果是16000采样率呢?使用帧长是50ms,帧移12.5ms那么hop_size就是200(16000*12.5/1000=200)啦,所以上采样倍数就是200倍啦.一、采样率(采样频率