最近我们发现,作为语音识别的声学模型,深度长短期记忆(LSTM)递归神经网络(RNNs)优于前馈深度神经网络(DNNs)。近年来,我们发现使用这种LSTM神经网络的序列训练上下文相关(CD)隐马尔可夫模型(HMM)声学模型的性能可以通过使用连接主义时间分类(CTC)初始化的序列训练电话模型来等效。在本文中,我们提出了进一步提高LSTM RNN声学模型在大词汇量语音识别中的性能的技术。我们证明了帧叠加和降低帧速率可以得到更精确的模型和更快的解码速度。CD电话建模导致进一步的改进。我们也给出了直接输出单词的LSTM RNN模型的初始结果。
Index Terms: speech recognition, acoustic modeling, connectionist temporal classification, CTC, long short-term memory
recurrent neural networks, LSTM RNN
虽然使用递归和前馈神经网络的语音识别系统已经存在了20多年[1,2],但直到最近才取代高斯混合模型(GMMs)成为最先进的声学模型。最近,有研究表明,在大规模语音识别任务中,递归神经网络的表现优于前馈网络[3,4]。
传统的语音系统采用交叉熵训练,先对HMM CD状态目标进行交叉熵训练,然后进行序列训练。CTC模型使用语音标签之间的空白符号,提出了一种替代传统交叉熵训练的损失。最近我们发现,使用CTC进行训练的LVCSR的RNNs可以在sMBR序列训练准则下得到改善,接近最先进的[5]。在本文中,我们进一步研究了smbr训练的CTC模型在声学语音识别中的应用,结果表明,通过适当的特征和引入上下文相关的手机模型,该模型的识别准确率比传统的LSTM RNN模型高8%。下一节将介绍LSTM RNNs,并总结CTC方法和序列训练。然后我们描述了声帧叠加以及上下文相关的电话和全词建模。下一节描述我们的实验,并给出结论中总结的结果。
在本研究中,我们将重点放在LSTM RNN架构上,该架构在我们之前的研究中表现良好,表现优于深度神经网络。
RNNs对输入序列进行单向或双向[6]建模。单向RNNs(图1顶部)估计标签后验仅使用当前输入xt的左上下文,处理从左到右的输入,并在前进方向上具有一个隐藏状态。这对于需要输入和相应输出之间的低延迟的应用程序是可取的。通常,输出目标会因为特性而延迟,允许访问少量的正确/未来上下文,在不引起很大延迟的情况下提高分类的准确性。
如果能够承受看到整个序列的延迟,bidirectional RNNs(图1底部)估计标签后验使用单独的层来处理正向和反向的输入。我们使用通过叠加多个LSTM层构建的深层LSTM RNN架构。这些模型已经被证明在语音识别方面比浅层模型表现得更好[7,8,9,3]。对于双向模型,我们在每个深度使用两个LSTM层,一个在正向操作,另一个在输入序列的反向操作。这两个层都与前一个向前层和后一个向后层连接。输出层还连接到最后的正向和反向层。我们对输出层使用不同的声学单元进行实验,包括上下文相关的HMM状态和电话,包括上下文无关和上下文相关(第2.4节)。我们采用异步随机梯度下降(ASGD)优化技术对模型进行分布式训练,允许在集群中的大量机器上并行训练,并支持神经网络的大规模训练[10,11,12,13,3]。所有网络中的权值随机初始化为均匀分布(-0.04,0.04)。我们将记忆细胞的激活剪切至[- 50,50],并将其梯度剪切至[- 1,1],使CTC训练稳定。
CTC方法[14]是一种使用RNNs进行序列标记的技术,其中输入端与未知标签对齐。CTC可以通过softmax输出层实现,该输出层为空白标签,使用额外的单元来估计在给定时间不输出标签的概率。Blank类似于之前提出的[15]的非感知状态。来自网络的输出标签概率定义了包括空白标签在内的所有可能的输入序列标签的概率分布。通过网络训练,利用网络输出和前后向算法[16]对训练数据进行估计,优化训练数据正确标签的对数概率。输入序列的正确标签定义为输入的所有可能标签的集合,这些标签具有正确序列中的目标标签,可能具有重复,并且在不同的标签之间允许有空白标签。使用[5]中描述的有限状态传感器(FSTs)可以有效且容易地计算CTC训练的目标,并且在序列标签的状态之间插入额外的可选空白状态。
传统的语音和手写混合识别系统通常是从固定的对齐开始训练的,而在给定当前模型的情况下,使用前向后算法对网络目标进行重新估计同样适用于传统的递归[17]或前馈网络[18](如果没有这种对齐的话)。这些传统的重新排列系统遵循的实践是选择对齐,以最大化与转录本匹配的状态序列下的数据的可能性,并使用由标签先验缩放的后验。
因此,CTC在两个方面不同于传统的建模。首先,额外的空白标签使网络在不确定的帧上不再进行标签预测。其次,训练准则优化的是状态序列的对数概率,而不是输入的对数似然。
无论采用带后验和空白符号的CTC模型,还是带缩放后验的传统模型,只要用前向后算法计算出目标后验,softmax输出与目标之间的交叉熵损失的梯度就会通过网络进行反向传播。
正如[5]中所描述的,可以使用标准的beam搜索算法对CTC模型进行语音解码,同样允许在搜索图的输出标签之间有一个可选的空白状态标签。在解码过程中,我们只对空标签后验进行了一个常数级的缩放,这个常数级是由外置集合上的交叉验证决定的。然而,带有CD电话标签的CTC模型(第2.4节)在加权常数(2.1)下表现更好。
交叉熵和CTC准则对于ASR中单词错误率(WER)最小化的目标是次优的。在语音解码中使用的词汇和语言模型约束的序列级识别训练准则已经被证明可以提高使用CE[19, 20, 12, 21, 4]或CTC训练准则[5]引导的DNN和RNN声学模型的性能。本文采用国家级最小贝叶斯风险(sMBR)序列判别训练准则[19]来提高用CE或CTC准则初始化的RNN声学模型的精度。如前所述,在[5]之前,使用CTC模型进行解码需要缩放空白标签后验。我们发现在sMBR训练过程中,如果我们在解码话语时不对空标签后验进行缩放以得到分子和分母格,sMBR训练可以解决这个缩放问题。另外,空白标签缩放可以烤成的偏见RNN模型中的空白标签输出装置通过增加负对数的规模开始前sMBR训练,就像国家先验可以烤成将softmax偏见的传统模型在序列训练。
综上所述,经过序列判别训练后,CTC模型与传统模型的唯一区别就是使用了空白符号。此后,我们使用CTC来参考这些模型(以及使用未缩放后验来生成对齐的初始训练),并将其与没有空白符号的传统模型进行对比,在本文中,我们使用固定的硬对齐进行训练。
我们使用了在25ms windows上每10ms计算一次的80维能量特征。通过将过滤器库的数量从40个增加到80个,我们获得了显著的改进,但只给出了后者的结果。
在过去,我们观察到CTC训练是不稳定的,一些训练跑不能收敛。我们发现[5]通过使用CTC和传统的CE损耗开始使用两个输出层进行训练,或者使用CE损耗预先训练LSTM层的网络进行初始化,稳定性得到了改善。我们认为这是由于与CTC对齐的固有随意性,CTC认为任何以正确顺序发出目标符号并点缀任意数量空格的对齐都是有效的。减少对齐空间的一种方法是减少输入帧的数量。这可以通过简单的输入框,虽然呈现完整的输入信号的声学信息,我们首先堆栈帧,这样网络将多个(如8)一次帧然后毁掉帧,这样我们跳过向前多个帧(如3)处理每一个这样的super-frame之后。这个过程如图2所示。采用这种方法抽取帧,声学模型能够处理完整的信号,而声学模型的计算只需要每30ms进行一次。对于一个固定大小的网络,这将大大减少声学模型的计算和解码时间。
之前的CTC模型[8,5]使用的是上下文无关的输出,但是众所周知,对于传统的语音识别系统,无论是基于gmm的还是神经网络的混合系统,上下文依赖状态的表现都优于上下文无关的模型。我们认为上下文依赖是解码的一个重要约束,并为状态输出提供了一个有用的标签,因此我们认为它应该对CTC模型有用。
在此之前,[22]被证明可以构建依赖于上下文的全手机模型,这对于LSTM-HMM是可行的混合语音识别,这些模型可以提供类似的结果,上下文依赖的状态模型,只要坚持一个最小的持续时间。我们重复这个过程,使用Young等人的分层二元分裂聚类算法进行上下文绑定。我们使用三个40维logmel过滤器组的框架来表示每个全手机实例。构造每个电话一棵树,使用最大可能增益语音问题在每个节点上分割数据。根据我们的培训数据,我们最终得到了9287部CD手机。如前所述,我们发现为每部手机设置一个最小持续时间可以提高错误率,我们再次使用训练集持续时间直方图的10%截止时间作为对传统模型进行解码的每个CD-phone的最小持续时间。对于CTC,没有强加这样的持续时间模型。
结合LSTM RNNs存储器和CTC s的能力来学习标签和声学帧序列之间的对齐,同时通过引入空白标签来减轻网络对每一帧的标签,使建模单元能够使用更长的持续时间。例如,我们可以训练声学模型预测整个单词而不是音素。之前有研究使用LSTM RNN CTC模型来识别词汇量较小的关键字任务(例如12个单词的[24])。在本文中,我们研究了在一个包含7000到90000个单词的大词汇量训练集上训练的单词声学模型的有效性。
表1显示了使用CD HMM状态、CI电话或CD电话标签进行CE或CTC损耗训练的各种单向和双向LSTM RNN声学模型在语音搜索任务中的错误率(word error rate, WERs)。从尝试学习3个状态HMM标签可以看出,CTC CD状态模型的性能并不好。单向的CE CD电话模型略优于相应的CE CD状态模型。CTC CI电话模型的性能与CE CD状态模型非常相似。CTC CD手机模型的单向度比CTC CI手机的单向度提高了8%左右,双向提高了3.5%左右。对于CD状态和CI手机模型,双向模型比单向模型提高了约10%,而CTC CD手机模型仅提高了5%。
在这项工作中,我们展示了一些改进的重复网络声学模型。使用较长期的特征表示形式,以较低的帧速率处理,为带有空白符号输出的模型的CTC训练收敛带来了稳定性,同时也大大减少了计算量。经过序列训练,该模型的性能优于以往的声学模型。引入上下文相关语音单元,进一步提高了空符号声学模型的性能,结果表明,该模型的性能优于传统的序列训练lstm混合模型。我们也证明了我们可以训练词级声学模型在不使用语言模型的情况下实现中等词汇量语音识别的合理精度。