NLP-SR-LAS模型笔记

1、LAS:Listen,Attend,and Spell

2、①seq2seq:一种重要的RNN模型,也称为Encoder-Decoder模型,可理解为一种N×M的模型。模型包含两部分:Encoder用于编码序列的信息,将任意长度的序列信息编码到一个向量c里,将一个可变长度的信号序列变成固定长度的向量表达。而Decoder是解码器,解码器得到上下文信息向量C之后可以将信息解码,并输出为序列,将这个固定长度的向量变成可变长度的目标信号序列。seq2seq模型结构有很多种,结构差异主要存在与decoder部分。通常encoder和decoder均采用RNN结构如LSTM或GRU等。可用于机器翻译、文本生成、语言模型、语音识别等领域。

②基于注意力的seq2seq:相较于普通的seq2seq模型多了个注意力层。简单来说不再由encoder直接将数据传给decoder,而是经过一个注意力层对encoder的输出进行加权,区分出对当前预测重要的数据,再根据这些重要的数据进行预测。

NLP-SR-LAS模型笔记_第1张图片

一、Listen

1.目标:杂讯去掉,只留下与语音辨识相关的信息

NLP-SR-LAS模型笔记_第2张图片

2.x1x2-b1

x1x2x3-b2

x2x3x4-b3

所以b1、b2、b3相当于已经包含了完整的神经系统

3.CNN+RNN组合搭配很常用。一般前几层用CNN,后几层用RNN

NLP-SR-LAS模型笔记_第3张图片

4.我们要对输入做down sampling

NLP-SR-LAS模型笔记_第4张图片

二、Attention

1、z0-vector match-function 最后得出一个数值α01

NLP-SR-LAS模型笔记_第5张图片
NLP-SR-LAS模型笔记_第6张图片

三、Spell

  1. C0-context vector

C0 有很多用法,input是常用用法

2.所有tokens的几率和是1

然后一直循环。。。

NLP-SR-LAS模型笔记_第7张图片
NLP-SR-LAS模型笔记_第8张图片

四、Beam Search

本来我们应该在这些路径中选几率最大的那个,但这样一直走到最后不一定也不一定会选到几率最大的

NLP-SR-LAS模型笔记_第9张图片

而我们的解决方法:beam search。可以每次保留两个最佳路径

NLP-SR-LAS模型笔记_第10张图片

五、Traning

我们要告诉系统当看到c时就输出a

训练目标:我们知道第一个正确字母是c;所以c在第一个distribution中的几率越大越好。把正确答案放在训练的process中,即是teacher forcing。

NLP-SR-LAS模型笔记_第11张图片

ps:Attention

以下两种的差异是attention得到的结果是下一个使用还是这个立刻使用

NLP-SR-LAS模型笔记_第12张图片

两种结合be like:

NLP-SR-LAS模型笔记_第13张图片
NLP-SR-LAS模型笔记_第14张图片

(硬trian一发:不管什么问题,都可以用神经网络来解决)

最后,LAS的局限性:

(不能做实时online recognition)

NLP-SR-LAS模型笔记_第15张图片

你可能感兴趣的:(NLP李宏毅,speech,recognition,自然语言处理,人工智能)