嗨,Dear,我是小明哥,上面几篇博文都是关于图像的【严格说是这样,但我用来近似视频,虽然有点不合理,但现在似乎没有提取视频features的经典方法】那么现在我用于声音场景分类也是可行的。
1-npz格式数据是字典,可以通过key来取值,或者直接查看
for k,v in para.items():
print(k,v)
2-frame操作,这个我之前在其他博文中有提到过,设定hop_size,window_length即可得到矩阵,shape为(帧数,窗长),
同样请采用周期性的hann窗。不再赘述。
3-stft短时谱,请参考我之前手写的C语言版本。
4-hz与mel刻度转化,这个有个基本的公式,直接代入即可,不费劲
5-着重介绍下由STFT短时谱到mel谱,假设采样率为16kHz,nfft=1024
5.1先对能奎斯特频率/半采样率进行nfft/2+1等分,然后转成mel刻度
spec_hz=np.linspace(0.0, sr, nfft/2+1)
spec_mel=hz2mel(spec_hz)
#note:num_spec_bins=nfft/2+1
5.2设定上下边缘频率[考虑到声音在100下或者能奎斯特频率附近可能并不重要],比如说125Hz和7800Hz
low_hz=125
high_hz=7800
5.3由于mel刻度带有中心频率,别管三角带或者其他带,一般都有中心频率吧,所以假定分成的mel刻度带为40个,那么实际需要用的是42个。因此对上面的边缘频率转成mel刻度后进行42等分
num_mel_bins=40
band_mel=np.linspace(hz2mel(low_hz),hz2mel(high_hz), num_mel_bins + 2)
5.4循环计算每个mel谱带的斜率,以下选自HTK中内容【有修改】
mel_weights = np.empty((num_spec_bins, num_mel_bins))
for i in range(num_mel_bins):
low_mel, center_mel, high_mel = band_mel[i:i + 3]
low_slope = ((spec_mel - low_mel) /
(center_mel - low_mel))
high_slope = ((high_mel - spec_mel) /
(high_mel - center_mel))
mel_weights[:, i] = np.maximum(0.0, np.minimum(low_slope, high_slope))
mel_weights[0, :] = 0.0
上面最后一步是去掉直流的影响。
5.5由上面mel权重与stft短时谱点乘即可,也可取log,那就是对数mel谱了
6由上面的对数mel谱再进行frame即可得到整个时长的声音特征
【关于此处为啥子又进行了frame处理,可以参考下librosa.istft源码,这里面也有类似的处理,至于为何,我也是一脸懵逼】
7对上面的mel特征进入预训练好的VGG网络,得到最终结果
据我观察数据及结果,发现每秒都会得到128D的特征,这点与图像似乎是类似的,每个图片得到2048D特征。
此处的声音特征需要avg吗??我觉得图像的avg都已经失去了某些特征了。声音可能也是如此。
但我下面尝试下,且看下文分解,拜拜
另外有相关问题可以加入QQ群讨论,不设微信群
QQ群:868373192
语音图像视频深度-学习群