Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3

Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第1张图片

Listen

Encoder目标:
去掉noises,提取出相关信息
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第2张图片
encoder有很多做法:
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第3张图片
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第4张图片
CNN见文章:CNN-卷积神经网络

Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第5张图片
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第6张图片
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第7张图片
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第8张图片
self-attention见文章self-attention
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第9张图片
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第10张图片
Pyramid RNN将两个结合,然后送到下一层。Pooling over time则是两个中取一个送到下一层。

Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第11张图片

Attention

match这个function可以自己定义,常用的是dot-product attention,作用是计算h1和z0的相似度。
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第12张图片
还有一种additive attention
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第13张图片
c0(在文献上常常被成为Context Vector)会被当做decoder即RNN input
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第14张图片
distribution(是通过softmax的)会给每一个token一个概率值
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第15张图片

Spell

假设输入的一段声音讯号是cat,则model先后的需要输出c——a——t
先输出c
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第16张图片
输出c后,用z1再次计算新的阿尔法的值
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第17张图片
注意:a是由上一层的c和z2共同得到
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第18张图片
EOS 代表辨识结束
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第19张图片

Beam Search

red path:每一次都选择概率最大的路径
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第20张图片
Greedy Decoding不见得能找到几率最大的那个
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第21张图片
解决上述问题的方法:Beam Search,每次都保留B个最好的路径。Beam size的大小需要自己去考量的。
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第22张图片

Training

输入是cat,我们希望Cross entropy越小越好,换言之p©越大越好
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第23张图片
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第24张图片

Why Teacher Forcing?

如果前面的输出是错误的
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第25张图片
经过一连串的training后,Model变厉害了,得到了正确的输出
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第26张图片

不管前面输出什么只专注训练c——>a这件事
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第27张图片

Back to Attention

Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第28张图片
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第29张图片
在语音识别上我们希望阿尔法是由左向右
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第30张图片
而不是阿尔法乱跳
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第31张图片
所以第一篇用LAS做语音辨识的作者加了一个机制:
Location-aware attention
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第32张图片
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第33张图片
Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第34张图片

Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第35张图片

Limitation of LAS

Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3_第36张图片

你可能感兴趣的:(李宏毅人类语言处理,学习,深度学习,神经网络)