噪声学生相关

1.用改进的噪声学生训练语音识别模型

https://arxiv.org/abs/2005.09629v2

最近,一种被称为“噪声学生训练”的半监督学习方法被证明可以显著提高深层网络的图像分类性能。噪声训练是一种迭代的自训练方法,它利用增广来提高网络性能。在这项工作中,我们采用(自适应)SpecAugment作为增强方法,对有噪声的学生自动语音识别训练进行了改进。我们找到了有效的方法来过滤、平衡和扩充自训练迭代之间产生的数据。这样,我们就可以在干净/有噪声的LibriSpeech测试集上获得4.2%/8.6%的字错误率(WERs),只使用LibriSpeech的干净100h子集作为监督集,其余的(860h)作为未标记集。另外,在libarisch-1.4%的情况下,我们在libarisch测试中获得了1.74%的干净率。


2.元伪标签

Hieu Pham, Qizhe Xie, Zihang Dai, Quoc V. Le

https://arxiv.org/abs/2003.10580

深度神经网络的许多训练算法都可以解释为最小化网络预测与目标分布之间的交叉熵损失。在有监督学习中,这种目标分布通常是真值一热向量。在半监督学习中,这种目标分布通常由预先训练的教师模型生成,以训练主网络。在这项工作中,我们不使用这种预先定义的目标分布,我们证明学习根据主网络的学习状态调整目标分布可以获得更好的性能。特别地,我们提出了一种有效的元学习算法,鼓励教师调整训练样本的目标分布,以提高主网络的学习效果。教师是由策略梯度来更新的,策略梯度是通过评估主网络的有效性来计算的。我们的实验表明,在强大的基线上有了实质性的改进,并在CIFAR-10、SVHN和ImageNet上建立了最先进的性能。例如,在小数据集上使用resnet,我们在CIFAR-10上用4000个标记示例实现了96.1%,在ImageNet上实现了73.9%的top-1。同时,利用全数据集的EfficientNet加上额外的未标记数据,我们在CIFAR-10上获得了98.6%的准确率,在ImageNet上达到了86.9%的top1准确率。


3.SpecAugment on Large Scale Datasets

https://arxiv.org/abs/1912.05533

最近,SpecAugment是一种直接作用于输入语谱图的自动语音识别增强方案,它在提高公共数据集端到端网络性能方面表现出了很好的效果。在本文中,我们通过研究它在Google多域数据集上的应用,证明了它在具有大规模数据集的任务中的有效性(Narayanan等人,2018)。在训练声学模型时,我们通过混合使用SpecAugment增强的原始训练数据和噪声干扰的训练数据来实现对所有测试领域的改进。我们还介绍了SpecAugment的一个修改,它可以根据话语的长度来调整时间掩码的大小和/或多重性,这可能有助于大规模的任务。通过使用自适应掩蔽,我们可以进一步提高Listen,attention和Spell模型在LibriSpeech上的性能,在test clean和test other上分别提高了2.2%和5.2%。

你可能感兴趣的:(噪声学生相关)