Data augmentation approaches for improving animal audio classification
标题:一种改进动物音频分类的数据增强方法
作者: Loris Nanni, Michelangelo Paci
链接:https://arxiv.org/abs/1912.07756
本文利用卷积神经网络(CNNs)训练中不同的数据增强技术,提出了一组用于动物音频自动分类的分类器。具体的动物音频分类问题是i)鸟类和ii)猫的声音,其数据集是免费的。我们在原始数据集上训练五个不同的cnn,并在它们的版本上训练四个增强协议,处理原始音频信号或它们作为谱图的表示。我们将我们的最佳方法与现有技术进行了比较,结果表明,在不需要特别参数优化的情况下,我们可以在相同的数据集上获得最佳的识别率。我们的研究表明,不同的cnn可以被训练用于动物音频分类,并且它们的融合效果比单独的分类器好。据我们所知,这是在动物音频分类音频数据集中使用相同的分类器和参数对CNNs的数据增强进行的最大规模的研究。我们的MATLAB代码可以在https://github.com/lorisnani上找到。
声音分类和识别已经包含在不同应用领域的模式识别任务中,例如语音识别[1]、音乐分类[2]、环境声音识别或生物特征识别[3]。在传统的模式识别框架(预处理、特征提取和分类)中,特征通常是从
实际的音频轨迹(例如统计频谱描述符或节奏直方图[4])。然而,将音频跟踪转换为其视觉表示可以使用通常用于图像分类的特征提取技术。音频记录道最常见的视觉表示是显示原始记录道随时间变化的频率谱,例如谱图[5]、Mel频率倒谱系数谱图[6]以及由此导出的其他表示。谱图可以描述为具有两个几何维(时间和频率)加上将特定时间步长的特定频率中的信号振幅编码为像素强度的三维的二维图[7]。例如,Costa等人。[8,9]将多种纹理分析和分类技术应用到音乐体裁分类中。在[9]中,在谱图上计算灰度共生矩阵(GLCMs)[10]作为拉丁音乐数据库(LMD)[11]上训练支持向量机(SVMs)的特征。类似地,在[8]中,他们使用了最著名的纹理描述子局部二值模式(LBP)[12],再次在LMD和ISMIR04[13]数据集上训练支持向量机,提高了它们相对于先前工作的分类精度。同样在2013年[14],他们使用了相同的方法,但使用了局部相位量化(LPQ)和Gabor滤波器[15]进行特征提取。这实际上标志着一个有趣的平行发展越来越精细的纹理描述子用于图像分类和他们的应用,也在声音识别。2017年,Nanni等人。[2]提出了将最新的纹理描述子与从多个数据集上的音频轨迹中提取的声学特征进行融合,展示了这种融合如何大大提高仅基于声学或视觉特征的系统的精度。然而,随着深度学习的普及和越来越强大的图形处理单元(gpu)以可获得的成本投入使用,i)标准模式识别框架发生了变化,ii)人们的注意力在声学轨迹的视觉表示上出现了两极分化。特征提取步骤的优化在规范框架中具有关键性的作用,特别是随着手工特征的发展,将特征从同一类中放置在特征空间中彼此更接近,同时最大化它们与其他类的距离。由于deep 3分类器在训练过程中学习了用于描述模式的最佳特征,因此上述特征工程失去了部分重要性,它与直接使用音频痕迹的视觉表示相结合,使分类器能够选择信息量最大的特征。将模式表示为流水线开始时的图像的另一个原因是最著名的深度分类器(如卷积神经网络(CNN))的内在结构,它需要图像作为输入。这促使研究人员在音频分类中使用CNNs来改进将音频信号转换为时频图像的方法。在对音频图像进行深度学习的首批研究中,Humphrey和Bello[16,17]探索了CNN作为解决音乐分类问题的替代方法,定义了自动和弦检测和识别的最新技术。Nakashika等人。[18]在GTZAN数据集上执行音乐类型分类[19]将频谱图转换为GCLM地图以训练cnn。Costa等人。[20]融合的规范方法,例如LBP训练的带有CNNs的支持向量机,在LMD数据集上的性能比现有的方法要好。
除了直接来源于图像分类的方法外,很少有研究集中在不同的分类方面,以便使这种过程更具体地用于声音识别。Sigtia和Dixon[21]旨在调整CNN的参数和结构,并展示了如何通过使用修正线性单元(ReLu)替换sigmoid单元和使用Hessian自由优化的随机梯度下降来减少训练时间。Wang等人。[22]提出了一种新的用于声音事件识别和检索的稀疏编码CNN方法,在噪声和干净条件下进行性能评估时,该方法获得了比大多数其他方法更具竞争力甚至更好的结果。Oramas等人提出的另一种混合方法。[23]结合不同的模式(专辑封面图像、评论和音频曲目),使用适合每个模式的深度学习方法进行多标签音乐流派分类,并优于单峰方法。在分类性能上的明显提高引入了深度分类器的使用,使得声音识别也应用到生物多样性评价等其他任务中。在当前不断提高环境意识的4个背景下,高精度的声音识别系统可以在缓解或管理诸如动物物种损失风险增加或影响野生动物群的气候变化等威胁方面发挥关键作用[24]。例如,鸟类被公认为生态研究的生物学指标。因此,它们的观察和监测对于生物多样性的保护越来越重要,另外一个优势是获取视频和音频信息具有微创性。迄今为止,许多数据集可用于开发分类器,以识别和监测不同物种,如鸟类[25,26]、鲸鱼[27]、青蛙[25]、蝙蝠[26]、猫[28]。例如,曹等人。[29]结合CNN和手工制作的特征对海洋动物进行分类[30](鱼类和姆巴里底栖动物数据集[31])。Salamon等人。[32]根据43种鸟类的5428次飞行呼叫,研究了融合深度学习(使用CNN)和浅层学习的鸟类物种识别问题。在这两个工作中,CNN与模式规范技术的融合都优于单一方法。
深度学习方法的主要缺点之一是需要大量的训练数据[33],在这种情况下,需要音频信号,因此需要它们的视觉表示。在训练图像数量有限的情况下,数据增强是一种强有力的工具。动物声音数据集通常比必要的要小得多,因为样本收集和标记可能非常昂贵。通常,音频信号可以在时间和/或频率域中直接在原始信号上或在转换成频谱图之后增强。在[34]中,不同的增强技术被应用于BirdCLEF 2018计划(www.imageclev.org/node/230)的训练集,其中包括超过30000个鸟类声音样本,涉及1500多种物种。首先在时域内对Bird音频信号进行增强,例如从每个文件中的随机位置提取块,对持续时间应用抖动,从随机文件中添加两个音频块背景噪声和背景大气噪声,应用随机循环移位和时间间隔丢失。然后将每个增强的音频块转换成谱图,然后通过基音偏移和频率拉伸、分段时间拉伸和频率拉伸以及应用颜色5抖动在频域中进一步增强。完全增广导致的影响提高了近10%,识别性能量化为平均倒数秩。在动物音频分类领域,Sprengel等人。[35]在鸟类音频分类中使用标准音频增强技术,如时间和音调偏移。此外,他们通过对属于同一类的两个不同样本求和来创建更多的样本。这是因为同一类的两只鸟的声音仍然应该正确分类。Pandeya等人。[28]证明了在本文第5节所述的国内cat声音数据集上,通过随机选择时间拉伸、音调偏移、动态范围压缩和插入噪声等简单技术增强音频信号,提高了ROC曲线下的精度、F1分数和面积。尤其是,通过在每个原始音频文件中包含更多的增强克隆(1到3个),性能改进得到了提高。相反,Oikarinen等人。[36]表明,通过翻译、添加随机噪声和将输入乘以接近1的随机值来增加其频谱图,并没有显著改善对绒猴音频信号的分类。值得注意的是,这项工作的目的不仅仅是对物种或叫声类型的分类,而是识别叫声类型和来源动物。其他技术,如语音识别,也适用于动物声音分类。例如,Jaitly等人。[37]提出了声带长度扰动(VTLP),它在提取描述子以创建新样本的过程中改变声带长度。结果表明,该方法在语音识别中是非常有效的。高桥等人。[38]使用具有强大数据增强功能的大型卷积网络对音频事件进行分类。他们还使用了VTLP并引入了一种新的变换,该变换包括对同一类的两个不同扰动样本求和。在这项工作中,我们比较了不同的数据增强方法,每种方法都耦合不同的cnn。这样,就训练了一组网络。最后,利用求和规则对分类器集进行组合。该方法在两个不同的音频分类数据集上进行了测试:第一个与国内猫声分类相关([28]),第二个与鸟类分类相关([24])。我们的实验被设计来比较和最大化通过改变数据增强方法和分类器的6个组合所获得的性能,并且它们表明我们的增强技术在提高分类精度方面是成功的。我们对社区的主要贡献如下:·在两个数据集中测试/提出/比较了不同的音频数据增强方法;·对基于不同数据增强方法训练的CNNs的集成系统之间的融合进行了详尽的测试;·在我们的实验中使用的所有MATLAB源代码将在https://github.com/LorisNanni上免费提供
2。音频信号的图像表示,
为了得到音频信号的图像表示,我们对信号进行了离散Gabor变换(DGT)。DGT是短时傅里叶变换的一种特殊情况,其中窗函数是高斯核。连续Gabor变换定义为高斯信号与复指数信号乘积之间的卷积:
(此处有公式请看原论文)
其中㼿(㼿)是信号,㼿是频率,㼿是虚单位。参数㼿2是高斯窗口的宽度。离散型差分格式使用离散卷积。输出㼿(㼿,㼿)是一个矩阵,其列表示在固定时间的信号频率。我们使用了http://ltfat.github.io/doc/gabor/sgram.html[39]中提供的DGT实现。
3. Convolutional Neural Networks
在这项工作中,我们使用CNNs进行特征提取(训练SVMs)和直接分类。1998年由LeCun等人引入。[40]是深度前馈神经网络,其中神经元仅在局部连接到前一层的神经元。在训练阶段,权值、偏差和7个激活函数被迭代调整。除了输入层(即要分类的图像或其部分)和输出/分类(类)层(由每个要分类的类的一个神经元组成)之外,CNN还包含一个或多个隐藏层。不同类型的隐藏层是卷积(CONV)、激活(ACT)、池(POOL)和完全连接(FC)。CONV层通过将输入卷的局部区域(接收场)卷积到相同大小的滤波器(因此是输出卷的单个整数)来执行从输入卷的特征提取。然后,滤波器以定义的步幅在同一输入图像的下一个接收场上滑动,再次计算新接收场与同一滤波器之间的卷积。对整个输入图像执行此操作将为下一层提供输入。在每个CONV层之后,应用一个非线性动作层来提高网络的分类和学习能力。常见的激活函数是非饱和ReLU函数㼿(㼿)=max(0,㼿)或饱和双曲正切㼿(㼿)=tanh(㼿)、㼿(㼿)=tanh(㼿)或sigmoid函数㼿(㼿)=(1+㼿—㼿)-1。池层需要执行非线性下采样操作(例如,最大或平均池),旨在减少表示的空间大小,同时减少1)参数的数量,2)过拟合的可能性,以及3)网络的计算复杂度。池层通常出现在两个CONV层之间。FC层通常是最后一个隐藏层:它们拥有与前一层中所有激活完全连接的神经元。输出类层执行最终分类:SoftMax是类层常用的激活函数。
CNN的转移学习或微调本质上重新启动了预训练网络的训练过程,以使CNN适应不同的分类问题。我们对先前在ImageNet[41]或Places365[42]数据集上预先训练过的cnn进行微调。我们测试并组合了两种不同的CNN架构:
1。GoogleNet[43]。CNN是2014年ImageNet ILSVRC挑战赛的冠军。它的结构包括需要训练的22层和5个游泳池层。它还引入了8个新的“初始”模块(INC),即由输出串联的并行卷积滤波器构成的子网络,大大减少了可学习参数的数量。使用两个预先训练过的GoogleNets:一个在ImageNet数据库上训练[41],另一个在Places365[42]数据集上训练。
2。VGGNet[44]。这家CNN在2014年ILSVRC排名第二。它是一个非常深的网络,包括16层(VGG-16)或19层(VGG-19)CONV/FC。CONV层是非常均匀的,在每两个或三个CONV层之后使用一个池层的非常小(3x3)卷积滤波器(而不是像AlexNet[45]中那样在每个CONV层之后)。VGG-16和VGG-19都是在ImageNet数据库上训练的[41]。
4.2 Standard Signal Augmentation
我们的第二个数据增强协议(StandardSGN)依赖于MATLAB内置的音频信号数据增强方法。我们为每个训练信号创建10个新信号,应用以下50%概率的转换:1。信号速度按[0.8,1.2]中的随机数缩放(SpeedupFactoryRange)。2。在[-2,2]个半音阶(半音阶移位范围)中随机数的音高偏移。三。体积以随机数增加/减少[-3,3]dB(VolumeGainRange)。四。在[0,10]dB(SNR)范围内添加随机噪声。5个。在范围内的时间偏移[-0.005,0.005]秒(时间偏移范围)。
4.3 Spectrogram Augmentation
我们的第三个数据增强协议(Spectro,图3)直接作用于谱图,生成每个原始谱图的六个转换版本。我们实现了以下六个不同的功能(以斜体显示):1。谱图随机移位随机应用音调移位和时间移位。2。spectrogramSameClassSum通过对来自同一类的两个随机图像的光谱图求和来创建新图像。三。声道长度标准化(VTLN)通过应用随机裁剪和VTLP来创建新图像[37]。VTLP将谱图切割成10个不同的时间切片,并对每个切片应用以下公式
其中,0、π是基本频率和最大频率,并且随机选取[^,y]。我们将a和b分别设置为0.9和1.1。四。spectrogramemdaaugment应用均衡混合数据增强(EMDA)[47]通过计算具有相同标签的两个随机选择的光谱图的加权平均值来创建新图像,其中㼿是原始数据集的大小。我们还将i)在[0,50]中随机选择的时间延迟应用于一个谱图,并且ii)根据公式㼿㼿㼿㼿(㼿)=㼿Φ(㼿1(㼿),㼿1)+(1-㼿)Φ(㼿2(㼿㼿㼿),其中㼿,㼿是[0,1]中的两个随机值,对它们进行扰动,㼿是时移,Φ是由向量㼿=(㼿0,㼿,㼿)参数化的均衡器函数。㼿0为中心频率,在[㼿0min,㼿0max]=[1006000]中随机采样。㼿是增益,随机采样于––㼿㼿㼿㼿㼿㼿㼿,㼿㼿㼿㼿㼿㼿㼿]=[-8,8]。㼿-因子㼿在[㼿㼿㼿㼿,㼿㼿㼿㼿]=[1,9]中随机抽样。所有这些参数都可以由用户选择,这里报告的值是在我们的实验中使用的值。5个。randTimeShift通过随机选取[1,㼿]中的shift㼿,其中㼿是输入谱图的水平尺寸,并将谱图切割为在时间㼿前后拍摄的两个不同图像㼿1和㼿2来应用时间偏移。我们通过反转㼿1和㼿2的顺序获得新图像。6。randomImageWarp将细样条图像扭曲[48](TPS扭曲)应用于光谱图。TPS Warp通过随机改变输入像素的子集㼿的位置来扰动原始图像,并使用线性12插值来适应不属于㼿的像素。我们只在水平轴上改变谱图。此外,我们还应用了频率和时间掩蔽,这在实践中是通过将谱图的两行一列的条目设置为零来实现的。我们将行的宽度设置为5像素,列的宽度设置为15像素。
4.4 Signal Augmentation
我们的第四个协议(信号,图4)直接作用于原始音频信号,产生11个转换版本的输入信号。它包含以下10个函数(以斜体显示):1。wow resampling对原始信号应用wow重采样。Wow重采样是音高偏移的一种变体,其强度随时间而变化。转换由:㼿(㼿)=㼿+㼿㼿sin(2㼿㼿㼿)2㼿㼿㼿13给出,其中x是输入信号,我们选择㼿㼿=3和㼿㼿=2。2。噪声添加白噪声,使得信号和噪声之间的比率为㼿dB,其中㼿可以由用户选择。我们用了㼿=10。三。剪辑使音频信号正常化,使10%的样本不在[-1,1]。然后将超出范围的样本x剪裁为符号(x)。四。加速增加或降低音频信号的速度。在我们的实验中,我们应用了15%的速度增加。5个。谐波失真连续5次对信号应用二次失真:其中sin5()表示应用了5次的正弦函数。6。增益将音频信号的增益增加特定的分贝数。在我们的实验中,我们采用了10分贝的增强。7号。randTimeShift随机将每个音频信号分成两部分,将它们交换并重新安装到新的随机移动信号中,即,如果㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿]。8个。soundMix将来自同一类的两个不同音频信号相加,以创建一个新的合成信号。9号。应用动态范围压缩程序将动态范围压缩(DRC)[49]应用于输入音频信号。DRC是一种根据递增的分段线性函数,提高音频信号的低强度,衰减高强度,从而压缩音频信号动态范围的技术。10个。pitchShift将音频信号的音调移动特定数量的半色调。我们选择增加和减少两个半色调。图4报告了两个音高偏移的例子:pitchShiftA增加两个半音高,pitchShiftB减少两个半音高。
报告结果可得出以下结论:
1。两个测试数据集的最佳折衷性能/计算时间是通过“融合Si+Sp”得到的。
2。在所有的测试中,没有一个单一的数据增强协议能胜过所有其他的协议。Spectro在CAT和BIRDZ中的性能最好。但在两组数据中,信号均优于NoAUG。最好的独立CNN是VGG16与信号耦合,尽管它的性能明显低于合集获得的性能;
3。最好的独立CNN是VGG16与信号耦合,尽管它的性能明显低于合集获得的性能;
4。用于图像增强的计算机视觉标准方法img获得了最差的结果,也与NoAUG相比,显示了对音频信号及其频谱图使用特定增强技术的重要性。
在下表3中,我们将我们的最佳融合方法Si+Sp与文献数据进行了比较,结果表明,在这两个数据集中,它的性能都优于最先进的性能。
注意,与[52]的比较是不公平的,因为在这项工作中使用了一个简单得多的测试协议:“在每个试验中,数据集被随机分成60%的训练集和40%的测试集”。
我们报告了从Pandeya等人中提取的两种方法的结果,分别称为[28]和[28]–CNN,后者基于用于特征提取的CNN集合来表示音频信号。不幸的是,在音频动物分类领域,有几篇论文只关注一个数据集。我们知道,在两个不同的数据集中评估我们的数据增强协议限制了我们强结论的强度。尽管如此,本文中测试的两个数据集都是免费提供的,并且在这里用一个清晰明确的测试协议对它们进行了测试。通过这种方式,我们报告了音频分类的基线性能,可用于比较将来开发的其他方法。
Conclusion
本文探讨了不同的数据增强技术如何通过深度网络提高自然声音(鸟鸣和猫鸣)的自动音频分类精度。提出了不同类型的音频信号数据增强方法,并进行了测试和比较。由于这些信号的性质,数据增强方法被应用于原始音频信号和它们作为谱图的视觉表示上。使用不同的数据扩充方法(我们组织成四个协议)训练一组cnn,然后用和规则组合这些cnn。我们的结果表明,不同的精细调谐CNNs的集成在两个测试音频分类问题中的性能最大化,优于以前的最先进的方法。据我们所知,这是CNNs在音频分类中最大的数据增强研究。这项工作将进一步发展,包括其他数据集,如[27,53],以获得一个更全面的验证,拟议的CNN集成。我们还计划i)在其他声音分类任务(如鲸鱼和青蛙分类)上测试我们的集成;ii)评估20种不同的CNN拓扑、传输学习微调步骤中的参数以及数据增强方法如何改善或降低集成性能。本文提出的方法的MATLAB代码可以在https://github.com/lorisnani上免费进行比较。
Acknowledgment
作者感谢NVIDIA公司通过捐赠Titan Xp GPU和坦佩雷科学计算中心的大量计算资源来支持这项工作。