CIF: Continuous Integrate-and-Fire for End-to-End Speech Recognition

CIF连续集成和发射

1. 引言

主流的端到端语音识别模型忽略了连续语音中token(词、词块等)边界的定位,而这被认为是婴儿语言学习的关键一步。定位边界的重要性也体现在外语学习中,许多学习者可能在听清一个词的结束和另一个词的开始时会遇到困难,从而导致对语音内容的识别容易出错。与此同时,定位token边界可以看作是即时语音识别的一个前置步骤,这是各种在线ASR场景所需要的。基于这些发现,本文认为值得探索一种对齐机制,该机制通过前向集成声学信息来处理token边界的定位,并在边界定位后触发集成信息进行即时识别。

本文提出了连续集成和发射(CIF),一种新的“软”和“单调”对齐机制,用于编码器-解码器框架。作为编码器和解码器之间的连接,它首先计算每个传入的编码声表示的权重(这意味着声学信息的数量,类似于积分和发射神经元中的膜电位)。然后,向前整合声学表示中的信息,直到累积权重达到阈值,即找到边界。此时,它将该边界帧中的信息分为两个:一个用于填充当前标记的集成,另一个用于后续的集成,这模拟了在编码帧期间的某个点上,当膜电位达到阈值时,“集成-触发”神经元模型的处理过程。之后,它将集成的声学信息发送到解码器,以预测当前令牌。这样的过程如下图©所示,循环直到识别结束。
CIF: Continuous Integrate-and-Fire for End-to-End Speech Recognition_第1张图片
在基于CIF的模型实现过程中,经常会出现定位不准确的问题,给训练和推理都带来了困难。在训练中,它可能会导致预测token与目标token之间的长度不等,从而阻碍交叉熵训练。为了解决这一问题,本文在计算的权重上引入了一种缩放策略,以迫使CIF在训练期间产生与目标相同数量的token。本文还提出了一个损失函数来监督生成的token数量,使其更接近目标数量,以便更好地定位。在推理过程中,定位不准确会导致一些有用但不充分的信息留在尾部,从而导致识别结果最后出现不完整的单词。为了解决这一问题,本文提出了一种舍入方法来决定是否根据推理过程中的剩余权重进行额外触发,并在目标序列的尾部引入一个额外的标记来标记句子的结束并提供容错。

2. 模型架构

连续集成发射(CIF)是在编码器-解码器架构中使用的“软”和“单调”对齐机制。它适用于许多序列转换任务,特别是那些从左到右的任务(ASR、文本到语音、场景文本识别、字素到音素等)。在本文中,我们关注ASR任务,并在下图中说明了基于CIF的模型的体系结构。如下图所示,编码器转换语音特征x = (x1,…, xt,……, xT)到高阶声学表示h = (h1,…, hk,……, hK),其中K < T,这是因为进行了时间下采样。然后,CIF部分以从左到右的方式消耗h,生成集成声学表示l = (l1,…,lu,……, lU),其中lU可视为符号yu在输出序列y = (y1,…,yu,……, yU)。当生成lu时,解码器将其映射到令牌yu上的概率分布。在编码器、CIF部分和解码器上分别设置了三个损失函数,为训练提供足够的监督。此外,为了进一步提高模型的性能,还引入了外部语言模型。
CIF: Continuous Integrate-and-Fire for End-to-End Speech Recognition_第2张图片

2.1 Encoder

编码器采用了卷积和由自注意网络(SAN)组成的金字塔结构。卷积用来进行时间下采样,然后采用乘法单元(MU)进一步捕获声学细节。然后对二维输出进行Projection,作为SAN组成的金字塔结构的输入。在堆叠的SAN之间均匀插入两个宽度为2的池化层,以鼓励在每个时间分辨率中进行有效编码,它们进一步将原始的时间采样率降低到1/8,最后得到了编码后的声学表征h。

2.2 Continuous Integrate-and-Fire(CIF)

连续积分发射(CIF)部分通过对h中的信息逐级积分得到输出序列y的声学嵌入I。具体来说,在第k步(k = 1,2,…, K),它首先为传入的编码表示hk计算一个权重αk,其中权重αk表示隐藏在hk中的声音信息的量,首先使用一维卷积捕获hk周围的局部依赖,然后使用具有sigmoid激活的投影层提取0到1之间的标量。

为了确定某一边界是否位于第k步,将权值αk与之前的累积权值相加,得到当前的累积权值。如果加和后的值小于给定的阈值β,则表示未找到边界,并当前的累积状态。如果大于β,象征性的边界,因此,在当前步骤声学信息使用当前令牌yu和下一个记号yu + 1,所以我们目前的断种αk分割成两个部分:第一部分是用来填补当前令牌的集成,因此,令牌 yu 的集成声学表示 lu 可以通过将令牌 yu 的增量累积状态 与当前加权声学表示相加来计算,如下所示:
在这里插入图片描述
第二部分用于更新当前累积权重,以便后续累积:
在这里插入图片描述
当前累计状态仅用于令牌yu+1的积分,计算如下:
在这里插入图片描述
其中集成声学信息lu被发射到解码器以预测其相应的概率分布。上述过程一直循环到编码表示的末尾长度为K,并触发长度为U的集成表示l用于后续解码。

在推理过程中,有一些权重不足以触发一个发射,但是这种触发在话语尾部很有用,这可能会导致预测结束时出现不完整的单词。为了缓解这种尾部问题,我们提出了一种舍入方法,如果在推理过程中最后一个权重大于0.5,则进行额外的触发。我们还引入了一个标记到目标序列的尾部来标记句子的结尾。

2.3 Decoder

解码器还使用SAN来捕获位置相关性。本文研究了两种版本的解码器。架构图显示了性能更好的版本:自回归(AR)解码器,它对y的概率分布建模如下:
在这里插入图片描述
然而,这种自回归特性导致低并行化和慢推理速度。为了缓解这一问题,我们引入了一个非自回归(NAR)解码器,它仅将l输入到SAN,以并行独立地生成y的概率分布,如下所示:
在这里插入图片描述

你可能感兴趣的:(语音识别论文笔记,语音识别,人工智能,自然语言处理)