kaldi 语音识别 lattice-free MMI声学训练

  1. KK

在语音识别领域,DT训练能显著提高语音识别系统的性能。DT训练需要所有的单词序列组合来做训练。一般而言我们会先利用交叉熵准则训练一个基准模型,配合使用一个相对较弱的语言模型生成相应的词图(lattice).Lattice里面除了包含与正确识别结果相对应的路径外,还包含与正确路径足够接近的其它路径。DT训练就是要提高模型走正确路径的概率,同时压低走相似路径的概率。
近年来CTC(Connectionist Temporal Classification连续时序分类)在语音识别领域广受关注,但CTC相比传统模型的优势,需要在很大数据集上才能体现出来,而且CTC训练速度很慢,参数调节更困难。与DT训练中常用的MMI准则类似,CTC训练准则的目标是最大化正确标注的条件概率,而MMI着重优化正确路径与其它相似路径的概率差。
LF-MMI(lattice-free Maximum Mutual Information)训练准则通过在神经网络输出层计算出来所有可能的标注序列,根据这些标注序列计算出相应的MMI信息和相关的梯度,然后通过梯度传播算法完成训练。
LF-MMI准则训练能够在训练过程中直接计算所有可能路径的后验概率(Posterior Probability),省去了鉴别性训练前需要提前生成lattice的麻烦,所以叫做Lattice-free MMI。
在声学模型方面,LFMMI(即povey的chain-model)。提到了LFMMI是吸取了CTC的优点(无lattice,无force-alignment),仍基于传统DNN-HMM混合系统进行的改进,性能不差于CTC,最主要的是训练稳定,CTC要大量调参。

  1. kaldi chain-model
    chain模型来自区分性训练,区分性训练可以稳定降低WER,SER,PER等,主要思想直接以字错误率,句子错误率,音素错误率等为优化目标。区分性训练需要用到很多对齐,lattice词图等临时文件,chain model 改进后不再需要lattice。
  • MMI训练lattice放在GPU上做(实现时使用了一些trick,包括LM使用4-gram的phone LM等),不像传统框架下的区分性训练那样生成一个lattice放在那儿,所以叫lattice-free。
  • 借鉴于CTC的一些思路,帧率降到原来的1/3,由于帧率的降低,HMM的结构上做了一些调整,引入了类似CTC里面blank的状态;
  • 防止overfitting,搞了3个正则化。
  1. 论文
    Purely sequence-trained neural networks for ASR based on lattice-free MMI Daniel Povey 2016
    **LFMMI:**为了计算简单,使用了音素n-gram语言模型代替字级别的n-gram;为进一步减小时间和空间复杂度,以帧率1/3的神经网络的输出计算目标函数。降低帧率也可以提供解码加速。
    LFMMI相比于CE wer相对降低11.5%,相对CE和sMBR(状态最小贝叶斯准则)降低。
    CTC准则最小化正确标注文本的条件对数似然,不同是CTC概率是局部归一化的而MMI是全局归一化的。
    特点:
    1.无需交叉熵系统初始化,可以从头开始训练,不用做对齐。
    2.帧率降低到原来的1/3,用一个更简单的HMM topology。
    3.使用有限状态接收器限制监督标签可以出现的时间帧范围。

    denominator-lattice-free,分母无词图的,在GPU上对所有可能的标签序列求和。
    论文:在GPU上做MMI训练,无lattices,目标函数的分子分母部分使用前向后向算法。

  1. ll

你可能感兴趣的:(语音识别)