Detection and Classification of Acoustic Scenes and Events Outcome of the DCASE 2016 Challenge

摘要

公共评估活动和数据集促进了目标研究领域的积极发展,从而可以直接比较算法。第二届声学场景和事件检测和分类挑战(DCASE 2016)为发展最先进的方法提供了这样一个机会,并成功地吸引了大量的来自学术和工业背景的参与者。在本文中,我们报告了DCASE 2016挑战的任务和结果。挑战包括四个任务:声学场景分类,合成音频中的声音事件检测,真实音频中的声音事件检测以及家庭声音标记。我们详细介绍每项任务,并根据设计和性能分析提交的系统。我们观察到深度学习作为最流行的分类方法的出现,取代了基于高斯混合模型和支持向量机的传统方法。相比之下,随着基于梅尔频率的代表在所有任务中占主导地位,特征表示在这些年中一直没有发生大的变化。创建并在DCASE 2016中使用的数据集是公开可用的,并且是进一步研究的宝贵资源。

导论

环境声分类和识别是一个发展迅速的领域。该领域受到新兴的公众评测活动和数据集的刺激,并推动了领域内诸如声学场景自动分类和声学事件自动检测和分类的发展。声学场景和事件检测和分类(DCASE)方面的一系列挑战为开发和比较最先进的方法提供了一个绝佳的机会,通过提供一组具有相应数据集的任务,度量和评估框架这个研究领域的主题。

评估活动在许多研究领域中很常见,并在推进研究和算法开发方面中发挥重要作用。在广泛的音频处理领域,自动语音识别评估具有悠久的历史[1],而音乐信息检索评估交换(MIREX)[2]已经运行十多年了。来自邻近研究领域的TRECVid多媒体事件检测(MED)评估涉及检测视频中用户定义的事件的轨道[3],包括并鼓励使用音频信息进行检测。相关的公共评估活动还包括SiSEC对信号分离的挑战[4]和REVERB对混响语音处理研究的挑战[5]。多年来,这些活动中提出的评估任务的数据量,数据复杂性和任务难度都在增长。此外,还出现了处理更专门化话题的评估活动,例如检测音频中的鸟类[6]。

环境声音分类和检测研究是计算听觉场景分析的一部分目前正在音频研究界获得大量兴趣,通过相关期刊和会议上的特殊问题和会议表现出来。近期有关这些主题的大量出版物受到了对网络意识,基于内容的信息处理以及不断增长的音频素材的兴趣,尤其是基于深度学习架构的强大计算方法的开发。计算听觉场景分析领域的两个主要研究方向是明显的:作为一般环境识别问题的声场景分类,以及作为通过所遇到的声音描述环境的更详细尝试的声音事件分类或检测。

声场景分类是基于这样的前提:可以提供文本标签作为位置或状况的一般表征,其被假定为与其他的基于它的声学标记区分开。问题通常被定义为监督分类,并且经常涉及相对较少的班级。文献[7]详细介绍了用于声场分类的特征和分类器,详细介绍了DCASE 2013提交的方法。现有的方法通常包括使用美尔频率倒谱系数和其他低级光谱描述符[8 ],[9]或更多的特殊功能,如声音事件的图谱[10]或从时频表征[11]中学习的梯度直方图。在声学模型方面,方法的范围从经典的统计模型,如隐马尔可夫模型(HMMs)[8],高斯混合模型(GMMs)[9]或支持向量机[SVMs] [11],到最近开发的方法使用在训练中具有高计算复杂性并且通常具有大量参数的深度学习[12]。

声音事件检测和分类是基于这样的前提:可以将源自相同声源或通过相同物理过程产生的声音分组为一个类别,并且可以将其与来自不同来源或通过不同过程的声音区分开来。在现有文献中,检测和分类之间通常没有明显的区别,许多早期的工作只处理孤立声音的分类。此后,我们将音频片段中的声音事件检测称为将声音分为类别,并将其定位在音频中相对于整个持续时间的起始和偏移。简化的场景包括每个音频段都有一个声音事件[13],或者DCASE 2013中的Office Live任务[6]中有一系列非重叠声音事件。多音,涉及重叠声音事件的检测。通常基于特征的信号的梅尔谱表示,用于声音事件检测的方法包括HMM [14],NMF [15] - [17],以及最近的各种时间受限的深度学习方法,例如卷积神经网络(CNN)[18] -

[20]和长短时记忆单元(LSTM)[21],[22]。

作为声学场景分类和事件检测的替代,我们可以尝试通过给音频片段分配一个或多个标签来表征音频片段,其中每个标签指示音频片段中特定声音事件类别的存在,而不需要定位事件。从而制定音频标签作为多标签分类任务,我们可以考虑每个训练实例是带有一组分配标签的音频片段的特定情况。由于标签没有提供关于声音事件发作和持续时间的指示,我们可能会将这些数据视为弱标签。鉴于音频标签已被广泛应用于分析音乐录音[23] - [29],环境音频标签仍然相对尚未探索。在目前的研究中,研究的方法包括GMMs [30] -[32],支持向量机结合多实例学习[33],无人监督的特征学习[34],[35]和CNN [36]。

自动环境声音识别的兴趣最近有了显着增加; 然而,与支持语音或音乐研究的资源相比,包含环境声音的数据库不易获取。最近,AudioSet是一个用于环境声音研究的大型数据集,已由Google [37]提供,其中包含YouTube视频中10秒音频段的标签; 它的研究任务的可用性尚未建立。目前有关环境声音识别的文献使用内部数据集,因此难以对这些方法进行公正的比较。朝着改善这种情况迈出的重要一步是2013年首次针对声场和事件的检测和分类(DCASE)挑战组织了专门的数据集。尽管提供的数据量相当小,但挑战引入了公众对日常声音的评估。DCASE 2013是成功的第一届,涵盖了两项任务,吸引了18个国际小组的意见,并在2013年WASPAA上举行了特别会议。此后,在不同会议上组织了许多其他关于环境声音分类的特别会议,

DCASE 2016是挑战的第二版,通过使用日常生活中记录的复杂音频,为任务提供更多更接近实际应用的任务,并提供更多数据。它被组织为IEEE音频和声学信号处理技术委员会的挑战,如DCASE 2013,整体参与人数非常多,提交次数比第一次挑战多四倍。挑战赛的结果在一天的专题研讨会上提出。参与者来自学术界和工业界,展示了双方正在进行的研究和积极的发展。

在本文中,我们将介绍DCASE 2016挑战的任务和结果,报告过去三年取得的进展。在第II部分,我们将介绍DCASE 2016挑战赛组织细节,时间表和任务。我们继续详细介绍第III-VI节中的每个任务。对于每项任务,我们提供定义,数据集描述和实验设置,用于评估方法的指标,为参与者提供的基准系统作为参考性能,以及对提交的系统和结果进行分析。最后,第八节提出结论并提出有关未来工作的建议并保持DCASE的积极性。

总结

DCASE 2016挑战赛评估了分析声场景和事件的计算方法。公开可用的数据集,常用指标和评估程序以及公开可用的基准工具允许独立于已开发的应用程序评估不同的算法。挑战在于参与方面取得成功,大量参与者表明,在当前的音频研究中,特别是在计算声场分析的新兴领域中,主题和预计的任务非常重要。所选择的任务代表了当前兴趣的良好表征,从更一般的声场分类和音频标注主题到详细的个别声音事件的时间检测。对于即将到来的关于该主题的挑战和研讨会,重要的是在任务选择过程中遵循科学界的建议和兴趣,并与产业研究人员进行交流,以便更全面地了解研究领域。这将允许社区为未来的挑战提出建议和协调任务。在由领域专家组成的指导委员会的帮助下,所提议的任务将进行评估,以选择最有意思的任务并提供关于其设置的反馈。

 

你可能感兴趣的:(国外文献泛读)