Conformer: Convolution-augmented Transformer for Speech Recognition 论文阅读笔记

Conformer: Convolution-augmented Transformer for Speech Recognition 论文鉴赏

Conformer:针对语音识别的卷积增强

by 熠熠发光的白

前言:这是我人生中第一次看相关论文!激动!主要是为了完成后面要学习的HW4的代码修改工作~

论文网址:https://arxiv.org/pdf/2005.08100.pdf

Abstract

​ 近期Transformer和CNN的模型在自动语音识别领域表现出了良好的前景,要比RNN来的好得多。Transformer模型善于捕捉基于内容的基本交互,而CNN对于本地特性的利用也是十分有效的。我们通过结合两者的优势,通过对音频序列的局部和全局依赖进行建模,实现了最佳结果。为此,这里提出了一种卷积增强的语音识别转换器Conformer,它要比之前的Transformer和CNN模型要来的强得多。在LibriSpeech基准测试中,在不使用语言的基础上对于test/testother数据集分别给到了2.1%和4.3%的WER(word error rate),并在使用一门语言时达到了1.9%/3.9%的WER。同时,在只有10M参数的小模型下,也有着很有竞争性的2.7%/6.3%的WER。

Introduction

​ 近年来RNN成为了较为主流的选择,而Transformer架构也在建模序列中得到了广泛应用,因为它有着高速的效率并能捕捉长短的交互,最近,CNN也开始因为其局部接受层而被ASR(自动语音识别)所接受。

​ 然而,他们都有缺陷,transformer擅长较长的上下文,但是其概括fine-grained的能力要来的差得多(fine-grained,类内细分,可以理解为区分鸟的具体种类之类的),而CNN则在局部上表现较好,但是需要较多的层数来捕获全局信息。而Con-textnet采用了挤压-激励模块来捕捉上下文,但全局的捕获仍然存在不少限制。研究表明,将卷积和自我注意结合使用效果更佳,所以研究了如何在自动语言识别下进行结合操作,如图所示。

Conformer: Convolution-augmented Transformer for Speech Recognition 论文阅读笔记_第1张图片

这个模型被命名为Conformer,并在LibriSpeech上获得了较好的成果,要比之前的Transformer变频器高上了15%。类似于两个马卡龙一般的feed-forward module配合上半层残差将multi-Head Self Attentio和Convolution Module连接起来。后面接了一个post layernorm(正则层),用于将层进行归一化。

Conformer Encoder

首先使用一个卷积子采样层来处理输入,然后用图1的conformer blocks来进行处理,特点就在于用这些conformer blocks 来替换。Conformer模块一共由四块组成,一块feed-forward模块,一块自注意模块,一块卷积模块和第二块feed-forward模块。2.1-2.3分别介绍了模块,并在2.4介绍了如何将它们组合在一块。

2.1 self-attention模块

采用了MHSA,并集成了相对正弦位置编码方案,这样对于语音长度的方差有着更好的鲁棒性,带有dropout的前残次单位能够帮助训练并使模型正则化。

Conformer: Convolution-augmented Transformer for Speech Recognition 论文阅读笔记_第2张图片

2.2 卷积模块

卷积模块开始于一个门控机制,一个点向卷积(卷积核的尺寸为1×1×n,n为上一层的通道数,有几个卷积核就会有几个Feature Map)和一个激活单元(GLU),接下来是一个一维深度卷积层,batchnorm在卷积之后部署来方便训练模型。

Conformer: Convolution-augmented Transformer for Speech Recognition 论文阅读笔记_第3张图片

2.3 前馈模块

Conformer: Convolution-augmented Transformer for Speech Recognition 论文阅读笔记_第4张图片

​ 在”Attention is all you need“这个文章中,提出的transformer是在一个MHSA层后面部署一个前馈模块,由两个Linear模块和一个非线性激活组成(Swish Activation),在前馈层上也加上了残差连接。Transformer ASR模型也采用了这种结构。

​ 我们遵循范数残差单元,并在残差单元内的输入后进行归一化(即layernrom),并用了swish activation和dropout来使网络正常化。

2.4 构象异构模块

​ 用两个feed-forward模块来把别的夹在里面,是macaron-net来的灵感Conformer: Convolution-augmented Transformer for Speech Recognition 论文阅读笔记_第5张图片

conformer模块最后的输出结果如图所示,FFN为FeedForward,MHSA为多头自注意模块,Conv为2.2的卷积模块

EXperiments

通过比较在Libri-Speech上的WER结果,发现超过了Transformer达到了最低的WER

Conformer: Convolution-augmented Transformer for Speech Recognition 论文阅读笔记_第6张图片

后面主要是进行比较,依次说明了ReLU不能替代Swish模块,单个FFN不能替换马卡龙FFN,将卷积模块放在self-attention之后拥有优势,核的选取等内容。

Conclusion

Conformer比起transformer要有着更好的性能。

你可能感兴趣的:(彩笔暑假计划)