音频分析之——时域转频域

时域:

横轴:时间

纵轴:震动幅度(音量的高低)

采样频率:(单位是HZ)

是指将模拟声音波形进行数字化时,每秒钟抽取声波幅度样本的次数。

采样频率的选择应该遵循奈奎斯特(Harry Nyquist)采样理论:如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半,或者说只要采样频率高于输入信号最高频率的两倍,就能从采样信号系列重构原始信号。正常人听觉的频率范围大约在20Hz~20kHz之间,根据奈奎斯特采样理论,为了保证声音不失真,采样频率应该在40kHz左右。常用的音频采样频率有8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等,如果采用更高的采样频率,还可以达到DVD的音质。

音频分析之——时域转频域_第1张图片

频域:

通过傅里叶变换可以把信号从时域转换到频域;

之前一直不理解频域里的频谱取值是怎么来的,后来发现它是和时域里的采样率相对应的,单位都是HZ, 时域如果1s采样 16000HZ, 转换到频域的频率范围就是(0, 16000HZ),相当于这1s 内的波形可以由这 16000个不同的正玄波叠加而成。

短时傅里叶变换(窗式傅里叶变换)

如果把一段音频直接FFT,因为时间较长,不能有效的逼近时域信号,会使信号太过平滑,于是又有了短时傅里叶变换 stft,用窗口滑动进行 FFT, 比如20ms 一次,相邻之间可以有重叠;

基本思想:局部平稳化-把长的非平稳随机过程看成是一系列短时随机平稳信号的叠加,短时性可通过在时间上加窗口函数实现(即截取一部分源数据)。通过该方法,人们至少可以说,无论发现了什么频率成分,它一定是发生在信号被截取的某个特定时间段内。

可用的函数:librosa.stft( ),音频处理库 librosa 很强大,可输出各种频谱

音频分析之——时域转频域_第2张图片

 

你可能感兴趣的:(video,机器学习,语音识别)