为了国宝的繁衍,连卷积+双向GRU+注意力模型都用上了?!

拯救大熊猫是我们的当务之急,然而人家自己却没有对这种急迫感感同身受。

 

为了国宝的繁衍,连卷积+双向GRU+注意力模型都用上了?!_第1张图片

 

 

雌性大熊猫每年只在春季有一次发情期,而且持续时间很短,可怀孕的状态仅能维持24到72个小时。雄性大熊猫如果此时不采取行动,就又要等上一年。

 

《科学美国人》(Scientific American)一篇发表于2012年的文章写道,“应该没有哪种哺乳动物像雌性大熊猫一样,对交配这么没有兴致。


 

为了国宝的繁衍,连卷积+双向GRU+注意力模型都用上了?!_第2张图片

 

 

作为我大天朝的吉祥物,人类怎么能允许如此萌物断子绝孙。为了激发熊猫的交配欲望,饲养人员无所不用其极操碎了心,给熊猫看A片,人类cosplay熊猫做引导......可以说是节操碎满地了!

 

为了国宝的繁衍,连卷积+双向GRU+注意力模型都用上了?!_第3张图片

 

 

这不,川大计算机科学学院联手四川省大熊猫繁育研究基地再次对这个萌物伸出了魔爪。用卷积+双向GRU+注意力模型对熊猫繁殖季的声音进行了预测,还写成了论文,在今年12月公布在了arxiv上......

 

为了国宝的繁衍,连卷积+双向GRU+注意力模型都用上了?!_第4张图片

 

 

下面,让我们把对熊猫的同情心和羞耻心放在一边,来欣赏欣赏这篇造福人类的大作!

 

文章简介

 

为了国宝的繁衍,连卷积+双向GRU+注意力模型都用上了?!_第5张图片

 

 

大熊猫一般都是比较安静的动物,不怎么发出声音,但在繁殖季时发声会明显多一些,这说明声音对求偶和交配有一定作用,此前的生物学研究也证明了二者存在相关性。另一方面,交配之后熊猫是否成功受孕很难确定,不仅因为熊猫胎儿非常小,只能通过其他因素观察,还因为人工养殖条件下的熊猫就出现过“为了享受更好待遇而假装怀孕”的事情。

 

所以这篇论文的目标是通过记录下的熊猫声音预测是否成功受孕,整个工作流程包括剪辑、音量和长度标准化、特征提取、用含有卷积+GRU+注意力的深度神经网络预测熊猫是否成功受孕。作者们在过去 9 年中采集的声音数据集上做了实验,得到了有潜力的结果。准确的预测能给大熊猫的繁育带来帮助。

 

研究背景

 

大熊猫是世界上最濒危的物种之一。现有研究发现,大熊猫的繁殖季节非常短,每年交配的最佳机会仅持续一天。传统研究认为熊猫发情的确定以及它们的交配结果(无论它们是否交配成功)的确定都是基于评估其激素分泌的,然而这个指标获取复杂且不能实时提供结果。最近的研究表明,大熊猫在繁殖季节会有特殊的发声行为,这为分析大熊猫的交配成功提供了新的机会。

 

Benjamin D.Charlton等人发现,低声是一种积极的声音,在交配时表现出良好的意图,而吼声通常表示排斥。他们人工定义了五种不同的大熊猫发声类型,并使用聚类方法根据其特征将发声数据分为五组。尽管研究表明,大熊猫的发声行为与交配结果之间存在高度相关性,但是他们没有提供大预测熊猫是否交配成功的自动化解决方案。

 

受近期语音识别方法的快速发展以及计算机技术在野生动植物保护中的应用的推动,我们旨在根据大熊猫的声音自动预测大熊猫是否交配成功。为此,我们将该问题视为语音情感识别(SER)问题,使用深度网络来学习独特的发声特征并自动预测大熊猫是否交配成功。并对所学语音特征的可视化分析证明了该方法的有效性,对预测准确性的定量评估证明了基于音频的方法的可行性。

 

为了国宝的繁衍,连卷积+双向GRU+注意力模型都用上了?!_第6张图片

 

 

研究方法

 

给定原始音频序列,先进行预处理对大熊猫声音进行剪辑,并将其振幅归一化到预先指定的最大值,长度归一化到两秒钟,然后每秒提取43个声学特征。不是直接将提取的声学特征用于预测,而是采用深度网络来学习更多歧视性声音特征并预测成功的可能性或失败率。对于输入的音频序列,最终的预测结果是通过汇总所有帧的概率来获得的,如果成功的整体可能性较大,则将其交配结果归类为成功。

 

1.预处理

首先手动注释起点和终点,从输入音频序列中提取具有大熊猫声音的片段。然后将其大小标准化,以使最大值等于预定值,并通过剪切长音频序列或通过复制部分短音频填充短音频序列,将其长度标准化为两秒钟。最后,在归一化音频段(两秒)的86个帧中的每个帧上提取梅尔频率倒谱系数(MFCC),并将其用作深度网络的输入。请注意,输入音频序列是双轨或具有两个通道,并且每个通道的采样频率为44,100Hz。计算MFCC时傅立叶变换的窗口大小为2,048。因此,对于音频段的每个通道,都会获得MFCC的43个声学特征,每个特征的维度数为40。提取的声学特征的大小表示为Fin,音频片段的大小为2×86×40。

 

2.学习声音特征

根据提取的声学特征,我们使用深层网络来进一步学习辨别性特征。如下图所示,我们分别将网络“ CGANet”命名为“ C”,“ G”和“ A”,分别代表卷积模型,双向GRU(门控循环单元)模型和注意力模型。

 

为了国宝的繁衍,连卷积+双向GRU+注意力模型都用上了?!_第7张图片

 

 

3.学习预测

根据每个采样帧的声音特征,我们通过使用softmax层预测交配成功或失败的可能性,得出概率矩阵P∈R86×2,第一列和第二列对应于交配的成功和失败率, 然后,对整个框架维度上的概率值求和。如果Ps> Pf,最后将大熊猫在输入音频段中的交配结果预测为成功,否则为失败。

 

实验部分

 

1.实施细节

我们从头开始训练具有交叉熵损失的深层网络。我们将学习率设置为0.01,如果验证集的精度在125个epochs内保持不变,并且将dropout率设置为0.3,batch大小设置为32,则将学习率降低10倍。训练是在装有NVIDIA GTX TITAN X(帕斯卡)的PC上完成的,并在500个epochs完成。在训练过程中,我们会在验证准确度提高后导出模型,然后选择验证准确度最高的模型进行测试。

 

2.数据和处理

在2011年至2019年的繁殖季节,成都大熊猫繁育研究基地收集了13只圈养大熊猫的声音。共获得138分钟的有效大熊猫声音,其中成功交配的声音持续约72分钟, 交配失败的声音为66分钟。

 

根据预处理方法,我们从这些数据中构建了2016个音频段的交配成功的集合。1859个音频片段的交配失败集合。我们将成功和失败的配对数据分别随机分为五个子集,进行五重交叉验证评估。在每个折叠中,四个子集用于训练,其余一个用于测试。

 

准确度(语音情感识别中的常见评估指标)被选为我们的主要评估指标。我们还使用召回率,准确性,F1得分和AUC来全面评估预测性能。

 

3.结果比较

我们比较了自己的CGANet与SVM和FLDA的性能。对应的SVM和FLDA方法也使用MFCC特征作为输入。FLDA的准确度达到79.5%±17.9%。SVM将准确性提高了5%,达到84.5%±15.7%。可以看出,我们提出的CGANet可以将精度显着提高到89.9%±9.1%。就其他指标而言,CGANet也是最好的。而且,CGANet的标准偏差在所有指标中也最小,证明了CGANet的出色稳定性。

 

为了国宝的繁衍,连卷积+双向GRU+注意力模型都用上了

 

 

本实验中考虑的替代特征是几个众所周知的声学特征的串联,即色度,频谱,频谱对比度,滚降频率和过零率。我们将此替代功能与MFCC功能相结合,获得了大小为62维度的组合特征。但是,其性能比MFCC特征差很多。

 

下图显示了注意力模块学习的成功和失败交配的86个采样帧的平均权重。可以看出,不同交配结果的权重显示出不同的分布,这说明了应用注意力模型的必要性。

 

为了国宝的繁衍,连卷积+双向GRU+注意力模型都用上了?!_第8张图片

 

 

我们将原始MFCCs特征和CGANet学习的特征空间可视化。成功和失败交配的大熊猫的声音在CGANet学习的特征空间中表现出明显的聚类趋势。这证明了我们提出的方法在预测大熊猫是否交配成功方面的有效性。

 

为了国宝的繁衍,连卷积+双向GRU+注意力模型都用上了?!_第9张图片

 

 

未来构想

 

你以为这就到头了?作为拥有三千后宫佳丽熊猫的四川省大熊猫繁育研究基地表示,”我们将继续扩大大熊猫的声音数据,并进一步验证该方法的实际有效性。我们还将通过探索包括声音和视觉数据在内的多模态数据来扩展我们的研究。”

 

为了国宝的繁衍,连卷积+双向GRU+注意力模型都用上了?!_第10张图片

你可能感兴趣的:(为了国宝的繁衍,连卷积+双向GRU+注意力模型都用上了?!)