端到端多语言识别 语言不变性瓶颈特征

中科院

LANGUAGE-INVARIANT BOTTLENECK FEATURES FROM ADVERSARIAL END-TO-END ACOUSTIC MODELS FOR LOW RESOURCE SPEECH RECOGNITION
针对低资源语音识别的端到端对抗性声学模型的语言不变瓶颈特性

 

本文提出了一种针对低资源语言的端到端对抗性声学模型,以学习语言不变的瓶颈特性。该多语言端到端模型采用连接主义时间分类损失函数进行训练。模型有共享层和私有层。共享层是用于学习所有语言的通用特性的隐藏层。私有层是依赖于语言的层,用于捕获特定于语言的特性。基于注意的对抗性端到端语言识别用于获取足够的语言信息。此外,正交性约束用于使私有和共享特性不同。对IARPA Babel数据集进行了实验研究。结果表明,与传统的多语言瓶颈特征训练的目标模型相比,采用该瓶颈特征训练的目标模型相对错误率降低了9.7%

Introduction

       为了提高低资源语音识别任务的性能,人们做了大量的工作。瓶颈特征有助于训练目标语言的声学模型[1,2,3,4]。以前,基于深度神经网络(DNN)的瓶颈模型被用来生成多语言的瓶颈特征[5,6,7]。最近,Hartmann等人利用双向长短时记忆网络(BLSTM)和深度卷积神经网络来提取单语瓶颈特征。

       以往的研究[9,10,11]表明,使用瓶颈特征训练的声学模型优于仅使用目标语言训练的模型,尤其是在训练数据有限的情况下。然而,瓶颈特性可能包含一些不必要的语言特定信息。Yi等人提出通过语言对抗性迁移学习来转移目标语言的共享参数。Yi等人还提出使用对抗性多语言训练来提取低资源语言的通用瓶颈特征。结果表明,该方法是有效的。然而,这种方法仍然有一些局限性。首先,[13]中的语言对抗模型是用交叉熵损失函数训练的,但目前尚不清楚用连接主义时间分类(CTC)[14]损失函数训练的模型是否有效。其次,多个帧的输入特性不包含太多的语言信息。最后,共享和私有特性可能有一些相似之处。

       为了解决上述问题,本文提出了从一个对立的端到端模型中学习语言不变的瓶颈特性。许多研究[15,16]表明,基于CTC的端到端声学模型取得了很好的结果。因此,利用具有CTC损失函数(BLSTM-CTC)的BLSTM模型来训练对抗性瓶颈模型。此外,受端到端语言识别任务[17]成功的启发,本文提出了一种对抗端到端语言识别方法,以获取足够的语言信息。此外,受最近领域适应工作[18]的启发,本文利用差异损失来鼓励共享和私有提取器对输入的不同方面进行编码。差分损耗由正交约束[18]实现。因此,端到端瓶颈模型可以学习与语言无关的特性。

       本文的其余部分组织如下。第2节介绍了端到端对抗瓶颈声学模型。第三部分给出了实验结果。本文的结论在第四部分

 

2. 对抗性端到端瓶颈声学模型

       基于BLSTM-CTC的端到端瓶颈声学模型,该模型附加了一个带有梯度反转层(GRL)的端到端语言鉴别器[19,20]。模型结构如图1所示。瓶颈模型具有私有和共享的隐藏层。共享层是用于学习所有语言的通用特性的隐藏层。私有层是依赖于语言的层,用于捕获特定于语言的特性。私有层由两个BLSTM层组成。共享层由三个BLSTM层组成,中间层为瓶颈层(BN)。该语言鉴别器具有完全连通(FC)隐藏层和注意层。注意机制[17]用于将话语特征转化为固定大小的实值向量。GRL没有参数,引入这些参数是为了确保所有语言上的特征分布对于语言识别器来说是尽可能不可分辨的。此外,正交性约束用于使私有表示和共享表示不同。因此,共享层可以学习更多的语言不变特性。

 2.1。连接时间分类(CTC)

      损失函数用于为给定的输入序列[14]选择最可能的标签序列。设x为输入序列,z为标签字母表上的输出序列。一般情况下,S中的每个训练样本定义为一对序列(x;最大似然训练的目的是使下列目标函数最小化

 

 

4  结论

       本文提出了一种针对低资源语言的端到端对抗性声学模型,以学习语言不变的瓶颈特性。采用CTC损失函数对端到端模型进行训练。为了获取更多的语言信息,提出了基于注意的对抗性端到端语言识别方法。正交性约束用于使私有和共享特性不同。对IARPA Babel数据集进行了实验研究。结果表明,使用该瓶颈特征训练的目标模型比使用传统多语言瓶颈特征训练的目标模型相对降低了9.7%。未来的工作包括使用更多的源语言学习独立于语言的特性,并探索源语言和目标语言之间的相似性。

 

 

 

 

你可能感兴趣的:(语音识别)