自然语言处理之语音识别(2)

上一节介绍的是LAS模型,标准的seq2seq model,因为decoder每一步其实考虑的是全部的encoder的输出,所以没办法做到online的输出。因此今天看的模型都是为了做online产生的。

先上一张李宏毅老师的模型总结图:

从上到下,从左到右其实是可以发现模型发展的一些规律的。

1. 语音的特点:因为语音的输入vector个数很多,但不一定每一个都会产生输出 ,所以采用的方法有:1)在vocab中增加\phi,表示该语音输入不对应任何输出。这种方法在训练的时候很麻烦,因为数据集中的label是没有\phi的,而且通常输入和输出个数差距比较大,即\phi的个数会比较多,那么其所在的位置是很多样的,而目前的模型确实是把所有可能都当成label去训练(老师说有一种算法,但是目前还没有讲到)。2)既然一个输入不一定对应,那我就输入多个(window),只需要确保该window有输出即可,所以问题变成怎么判断该窗口有没有输出呢?MoCha模型。

        第一种方法就是以输入为主,输出个数=输入。label比较难产生。第二种以输出为主,label确定,但是在模型中需要用网络判断当前输入是否为窗口。感觉Neural Transducer是位于两种方法之间的。

2. 其次,一个音符可能会产生多个输出,比如“th"只发一个音,所以要模型学会动态的输出,看RNN-T模型结构。

你可能感兴趣的:(语音识别,语音识别,自然语言处理,人工智能)