论文笔记

1. A time delay neural network architecture for efficient modeling of long temporal contexts   2015,interspeech

  1. 提出使用TDNN做ASR,与DNN作对比,
  2. 提出sub-sample的方法,这里的sub-sample特指对TDNN网络中间层的subsample,减少5倍的计算量,也缩减了模型; 作者认为left-context大于right-congtext比较好,表现在解码时间和wer上。最优结果为[-16,9]
  3. 认为NN结构需要adaptation,fmllr虽然好,但需要两次decode,不适合online-decode.推荐了ivector.
  4. 认为NN网络不需要对MFCC做CMN,发挥ivector的mean offset 特性
  5. 认为有效的augmentation: speed-perturb,volume-perturb,word position dependent silence probabilities,sequence training,4-gram LM rescoring,pronunciation probabilities。
  6. 对sMBR的改进:加入  penalizing insertions.
  7. 其他特征表达:TRAPS,wavelet based multi-scale spectro-temporal representations , deep scattering spectra  and other modulation feature representation

2.SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition   2019,arxiv

  1. 提出一种简单可行的spctral mask方法,具体为:时间弯折、频率掩蔽、时间掩蔽。
  2. 认为时间弯折time-warping不是改善的主要因素
  3. 后两者的组合,并允许overlap,既multi frequency and time mask,较为有效
  4. 本文是基于端到端的las为实验,据自动化的某博士论文,在kaldi上也有效,但是time warping后 需要重新对齐。对于time warp和time mask,由于TDNN是帧级别的建模,这样会导致标签错误,效果不会好;相比,spectral mask效果明显。
  5. 对于频率掩蔽和时间掩蔽,是用特征的全局均值、局部均值、或者0来代替掩蔽部分?实验结果:在KALDI中,用0最为代替值时,频谱掩蔽对干净测试集有较大提升,对背景噪声较强的测试集有干扰,识别会下降。
  6. 经验参数为:时间弯折系数40,时间掩蔽最大宽度100ms,频率掩蔽最大宽度27.

3、Phoneme recognition using time-delay neural networks,1989

论文笔记_第1张图片

4. Semi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks

    1.主要是将TDNN改进为Factorized TDNN(TDNNF):

    2.改进点1:将final layer MN因子分解为M*a*N,其中a不规则正交矩阵, 通过类似SVD的方式在训练时完成模型压缩。

    3.改进点2:增加dropout,对TDNN模型无效,对TDNNF有效。

    4.改进点3:使用3层的skip connection,因为隐藏层会增加,残差链接会防止梯度消失。

你可能感兴趣的:(kaldi,语音识别)