【Conformer】2.Conformer: Convolution-augmented Transformer for Speech Recognition

论文题目:contromer:用于语音识别的卷积增强变压器 

论文地址:https://arxiv.org/abs/2005.08100

论文代码:https://github.com/sooftware/conformer

摘要:近年来,基于Transformer和卷积神经网络(CNN)的模型在自动语音识别(ASR)中表现出了优于递归神经网络的良好效果。 Transformer模型善于捕捉基于内容的全局交互,而CNNs则有效地利用了局部特征。 在这项工作中,我们通过研究如何将卷积神经网络和Transformer结合起来,以一种参数有效的方式来建模音频序列的局部和全局相关性,从而达到两者的最佳效果。 为此,我们提出了一种用于语音识别的卷积增强转换器Conformer。 Conformer显著优于以前的Transformer和基于CNN的模型,实现了最先进的精确度。 在广泛使用的Librispeech基准上,在Test/Test_other上,我们的模型在不使用语言模型的情况下获得了2.1%/4.3%的WER,在使用外部语言模型的情况下获得了1.9%/3.9%的WER。 在一个只有10m参数的小模型中,我们还观察到2.7%/6.3%的竞争性能。 

你可能感兴趣的:(其他,transformer,深度学习,人工智能)