音频分类-数据集:AudioSet【Google发行的声音版ImageNet】

GitHub:https://github.com/audioset/ontology

谷歌发布的大规模音频数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。

音频本体 (ontology) 被确定为事件类别的一张层级图,覆盖大范围的人类与动物声音、乐器与音乐流派声音、日常的环境声音。

音频分类-数据集:AudioSet【Google发行的声音版ImageNet】_第1张图片
AndioSet能为音频事件检测提供一个常见的、实际的评估任务,也是声音事件的综合词汇理解的一个开端。

该数据集收集了所有与我们合作的人类标注者从 YouTube 视频中识别的声音。我们基于 YouTube 元数据和基于内容的搜索来挑选需要标注的片段。

在我们的音频本体中,得到的数据集在音频事件类上有极好的覆盖。
音频分类-数据集:AudioSet【Google发行的声音版ImageNet】_第2张图片

训练神经网络时,最重要的是数据,其次是网络类型或结构等。尤其是音频标记、声音事件检测任务中,标注准确的公开数据屈指可数。DCASE2013、2016、2017等中,声音事件检测(Sound event detection,SED)的数据集,基本都是两个小时左右的规模。2017年,Google在ICASSP上发布了大型音频数据集AudioSet,为 general audio-related tasks提供了可用的数据集,但美中不足的是,AudioSet只含有片段级别(10秒左右)的标签,即我们常说的弱标签(Weak label)。

弱标签(Weak label)通常用于音频分类(audio classification)、音频标记(audio tagging)等任务,用于指示此片段中是否含有相应的声音事件。而如果想要知道声音事件在片段中具体的开始和结束的时间,那就需要强标签(Strong label)。所以,弱标签是片段级别(clip level)的标签,含有全局信息;强标签是更细致的帧级别(frame level)的标签,含有局部信息。强标签一般用于不仅需要预测音频片段中事件的种类,也需要预测对应事件的开始和结束时间的任务,例如声音事件检测(Sound event detection,SED)。

细粒度的音频事件标注是非常耗时费力的,若想精确到帧级别(例如40ms),那么标注1分钟长度的片段,可能需要10分钟不止,要是遇到某些难以确定开始和结束范围的事件,可能需要翻来覆去听好几遍才能确定。若标注任务中有复音音频事件,那同一个片段可能需要听更多次,每次专注于单个音频事件。所以,这也导致了大规模的音频数据标注工作一般由大公司发起,而对应的结果是,他们标注的数据集很少有公开的。

所以,当从今年的 ICASSP2021 论文集中看到Google发布的这篇文章时,可说是喜大普奔。文中从拥有1.8M的10秒音频片段的AudioSet中,选出了67K个片段、共456类事件,对其进行了帧级别(分辨率0.1秒)的标注,得到了对应的强标签。这对整个研究社区无疑贡献巨大,但这也无形间提升了研究的门槛,以后要是想发事件检测相关的论文,审稿人若问为什么没有在AudioSet上的实验结果,之前还可以说AudioSet中只有弱标签,没有事件级别的强标签,做不了相关实验,但现在AudioSet有了强标签,就不能再用这个理由逃避了。(但没有足够的计算资源,就难以开展相关的研究,难)




参考资料:
关于Audioset的音频分类研究
AudioSet指标解释
AudioSet数据集介绍(含国内镜像地址)
音频标签化1:audioset与训练模型 | 音频特征样本
公开数据集记录:语音、音乐和其他音频数据集
【论文随笔3】AudioSet终于有了强(帧级别)标签:THE BENEFIT OF TEMPORALLY-STRONG LABELS IN AUDIO EVENT CLASSIFICATION
音频模式识别中的涨点方法与影响因素分析

你可能感兴趣的:(数据集,AudioSet,数据集)