语音论文阅读(基于Transformer的在线CTC/Attention 端到端语音识别架构)

论文:

       TRANSFORMER-BASED ONLINE CTC/ATTENTION END-TO-END SPEECH RECOGNITION ARCHITECTURE

摘要

      最近,Transformer在自动语音识别领域获的了成功。为在线语音识别部署端到端模型是一种挑战,提出在线基于Transformer的CTC/Attention ASR体系结构,该体系包含自我编码器(SAE),截断注意力(MTA),和自我注意力解码器(SAD),我们根据科大的普通话ASR基准评估了在线模型,320毫秒的延迟实现23.66%的字错误率(CER),比起离线系统,在线模型产生的CER绝对降低为0.19%

引言

介绍了CTC/attention 语音识别模型很难应用到在线识别,因为全局注意力机制和CTC在先前的工作中提出了单调逐块注意(sMoChA)[1],单调截断注意力(MTA),解码方面是有在线联合解码方法,截断的CTC(T-CTC)前缀分数和动态等待联合解码(DWJD),介绍了Transformer的优点:可并行化,缺点:不适合在线任务,编码器需要计算整个输入帧上的注意力权重;其次,自注意力解码器计算整个输出的注意力权重。

针对这一缺点,提出块编码器,

Transformer架构

Transformer也是由编码器-解码器体系结构,编码器和解码器中都用了堆叠的自我注意力和位置前馈层。

本文模型

基于Transformer的混合CTC/attention在线端到端语音识别

语音论文阅读(基于Transformer的在线CTC/Attention 端到端语音识别架构)_第1张图片

 Chunk-SAE:

为了流式传输SAE,我们首先提出了块SAE,它将语音分割成Nc中心长度的非重叠孤立块。为了获取上下文信息,我们将每个块之前的Nl个左帧拼接为历史上下文,将其之后的Nr个右帧拼接为未来的环境。拼接的帧仅充当上下文,不提供任何输出。利用预定义的参数Nc,Nl和Nr,每个块SAE输出的接收场被限制为Nl + Nc + Nr,并且块SAE的等待时间被限制为Nr。

语音论文阅读(基于Transformer的在线CTC/Attention 端到端语音识别架构)_第2张图片

State reuse chunk-SAE 

在块SAE中,将为每个块重新计算历史上下文。为了降低计算成本,我们将计算出的隐藏状态存储在中央上下文中。然后,在计算新块时,我们在与历史上下文相同的位置重用了先前块中存储的隐藏状态,这受TransformerXL 的启发。

提出了一种基于SAD截断INA单调左到右的方式感受野和SAE的截断输出进行关注的MTA。具体来说,我们将MTA替换为每个SAD层中的编码器-解码器注意,如图2所示。假设表示维数为dm,则MTA在训练期间并行执行,

模型描述

数据集:HKUST

输入特征:83维,80Fbank+pitch,delta-pitch,以及归一化相关函数

训练:使用adam优化器,dropout,以及标签平滑,训练结束后,采用模型参数平均。

实验结果:

语音论文阅读(基于Transformer的在线CTC/Attention 端到端语音识别架构)_第3张图片

 语音论文阅读(基于Transformer的在线CTC/Attention 端到端语音识别架构)_第4张图片

参考文献

  1. H. Miao, G. Cheng, P . Zhang, L. Ta, and Y . Yan, “Online Hybrid CTC/Attention Architecture for End-to-End Speech Recognition,” in Proc. Interspeech 2019, 2019, pp. 2623-2627.

 

你可能感兴趣的:(语音识别,人工智能,语音识别)