2020-04-03李宏毅深度学习与人类语言处理笔记2(DLHLP2020-note3)-models

要介绍的Models

大家都是seq2seq模型,所以用各自的名字区分。


需要介绍的模型

LAS

Listen

encoder
RNN

红色的三角形代表一个filter(吃100个acoustic features)


1D-CNN

self-attention

减少运算量。


image.png
image.png

LAS中的attention

image.png

另一种attention的方式,不是点乘了,而是相加后通过tanh。


image.png

image.png

Spell

输出第一个字母。


image.png

继续拿z1做match

image.png
image.png
image.png

每次都选几率最大的。


image.png

缺点:但greedy decoding不见得会获取几率最大的结果。
(念博士的结果哈哈哈哈)


image.png

比greedy decoding更常见的是beam search。
image.png

Training

image.png

image.png
image.png

back to attention

image.png

最早的语音辨识系统用的attention,两种模式都有(不仅影响当前,也影响下一个)。


image.png

attention的改变不应该乱跳。


image.png

第一篇用LAS的加了机制去控制按顺序改变attention。
image.png

LAS work 么?

很长一段时间之后,加了很多trick,居然打败了传统的模型。


image.png

image.png

神奇诶,机器自己学到了aaa和triple a是一样的。
LAS中decoder相当于加了一个language model。


image.png

正确率还有62.1%。哎,这个老师真的好搞笑,举的例子也很贴近生活,而我还是没懂细节哈哈哈,下来自己再看看。

LAS的限制

期待可以做online的语音辨识系统。

image.png

李宏毅DLHLP2020-LAS

你可能感兴趣的:(2020-04-03李宏毅深度学习与人类语言处理笔记2(DLHLP2020-note3)-models)