RNN Transducer(RNN-T)——李宏毅人类语言处理学习笔记

(RNA)Recurrent Neural Aligner

其实他是在RNN-T之后被提出的,有点像CTC和RNA之间过度的方法。
CTC输出时是相互独立的,我们不想让他相互独立,让其在输出时看一看前面的东西。把Linear classifie换成rnn或者lstm即可,这就是rna。
RNN Transducer(RNN-T)——李宏毅人类语言处理学习笔记_第1张图片

RNN-T

RNA和CTC都是吃一个输入,输出一个token,那有时候我们需要吃一个输入,有多个输出,例如吃一个发音对应多个token,RNN-T便可以做这个事情。

一个输入进来,一直输出到Model觉得满意为止。有T个声音讯feature,输出T个Null,最终辨识的结果要把null拿掉。
RNN Transducer(RNN-T)——李宏毅人类语言处理学习笔记_第2张图片
RNN-T和CTC有同样的问题,需要知道何时输出null,但是这种Label在training是没有的,这种label需要自己去训练。
例如下图,你必须要在好棒之间插入四个null,RNN-T和CTC一样会穷举所有的element
RNN Transducer(RNN-T)——李宏毅人类语言处理学习笔记_第3张图片

实际上RNN-T会另外训练一个RNN,其作用有点像是一个language model,遇见null时忽略。
RNN Transducer(RNN-T)——李宏毅人类语言处理学习笔记_第4张图片

你可能感兴趣的:(李宏毅人类语言处理,rnn,学习,深度学习)