AudioSet数据集介绍(含国内镜像地址)

AudioSet是Google发行的声音版ImageNet。

AudioSet提供了两种格式:

  1. csv文件,包括音频所在的YouTube视频的ID,开始时间,结束时间 以及标签(可能是多标签)
  2. 128维的特征,采样率为1Hz,也就是把音频按秒提取为128维特征。特征是使用VGGish模型来提取的,VGGish下载地址为 TensorFlow models GitHub repository,可以使用该模型提取我们自己的数据。VGGish也是用来提取YouTube-8M的。这些数据被存储为.tfrecord格式。

128维特征的下载地址(基于所在地)

  • storage.googleapis.com/us_audioset/youtube_corpus/v1/features/features.tar.gz
  • storage.googleapis.com/eu_audioset/youtube_corpus/v1/features/features.tar.gz
  • storage.googleapis.com/asia_audioset/youtube_corpus/v1/features/features.tar.gz

本人使用的是第2种方法。

其中,label的类型映射对应,可以通过class_labels_indices.csv了解。

AudioSet还提供了Starter Code用来在AudioSet上进行训练,以便作为baseline,这代码也是用来在YouTube8M上训练的,代码可以在Starter Code下载

更多的细节,可以在Google的论坛AudioSet_User了解。



其他相关资源:

Github-An inplementation of vggish in keras with tf backend

paper-AUDIO SET CLASSIFICATION WITH ATTENTION MODEL: A PROBABILISTIC PERSPECTIVE

AudioSet国内镜像下载地址

文件镜像空间需付费,若有帮助,欢迎支持本站,为更多人提供开源资助!

AudioSet数据集介绍(含国内镜像地址)_第1张图片

你可能感兴趣的:(声学,AudioSet,深度学习,人工智能,机器学习,数据挖掘)