Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognit

Paraformer非自回归语音识别

引言

非自回归(NAR)语音识别的主要挑战有两个:如何准确预测目标token的数量、如何提取token之间的依赖。本文提取了Paraformer用于解决是上述两个问题,对于第一个问题,使用基于连续集成和发射(CIF)的来估计目标token数量,对于第二个问题,设计了一个基于浏览语言模型(GLM)的采样器模块,以增强NAR解码器对token相互依赖性建模的能力。

Paraformer架构

Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognit_第1张图片
上图是Paraformer的体系结构,该体系结构由5个模块组成,分别是编码器、预测器、采样器、解码器和loss函数。该编码器与AR编码器相同,由多个具有记忆单元的自注意模块(SAN-M)和前馈网络(FFN)或Conformer组成。预测器用于产生声学嵌入和引导解码。然后,采样模块根据声学嵌入和字符标记嵌入生成语义嵌入。解码器类似于AR解码器,但它是双向的,由多个SAN-M块、FFN块和交叉多头自注意力模块(MHA)块组成。除交叉熵(CE)损失外,将引导预测器收敛的平均绝对误差(MAE)和MWER损失结合起来共同训练系统。

将输入记为(X, Y),其中X为T个语音帧的声学特征,Y为N个token的目标标签。编码器将输入序列X映射为一个隐藏表示序列H,H随后被送入到预测期中来预测标记数N '并产生声学嵌入Ea。解码器接收声学嵌入Ea和隐藏表示H,第一次生成目标预测Y ',此次不会有反向传播过程。采样器根据预测值Y’与目标token Y之间的距离,在声学嵌入Ea和目标嵌入Ec之间进行采样,生成语义嵌入Es。

然后,解码器接受语义嵌入Es和隐藏表示H,第二次生成最终预测Y”,此次使用反向传播。最后,对预测Y”进行采样,以产生MWER训练的负候选值,并在目标token数N和预测token数N’之间计算MAE。MWER 和 MAE 都与 CE 损失联合训练。

在推理过程中,采样器模块是非活动的,双向并行解码器直接利用声学嵌入 Ea 和隐藏表示 H 仅输出一次的最终预测 Y '。尽管解码器在每个训练阶段向前运行两次,但由于单步解码过程,计算复杂度在推理过程中并没有实际增加。

预测器结合了连续集成和发射(CIF)来预测目标token数量N '和生成声学嵌入Ea。
采样器结合浏览语言模型(GLM)来提取token之间的依赖关系。

你可能感兴趣的:(语音识别论文笔记,transformer,深度学习,人工智能)