NLP中的注意力模型 Attention model(学习心得)

Attention model intuition

在前面的 seq2seq 模型基础上做些改进,形成注意力模型
Attention 的思想已经是深度学习中最重要的之一

NLP中的注意力模型 Attention model(学习心得)_第1张图片
给定一个非常长的法语句子
前面讲到的模型,会把原句子输入编码,然后解码生成翻译
但是人类的做法是,一小部分,一小部分地进行翻译

以 Bleu score 来说
机器翻译对于短句子的处理效果较好
长句子的表现就会越来越差
而注意力模型会改善这个问题

注意力模型来源于 Dimitri Bahdanau, Camcrun Cho, Yoshe Bengio
虽然这个模型是为了机器翻译发明的,但是后来被推广到了其他应用领域
所以这个 paper 非常有开创力 和 影响力

NLP中的注意力模型 Attention model(学习心得)_第2张图片
我们在短句子上看下效果

这里我们使用双向 RNN 结构
由于不准备一个个词进行输出翻译,所以去掉上面的 y_hat


使用双向 RNN,可以计算 每个位置 的特征集,包括周围的词
然后我们使用另一个 RNN 来生成英文翻译

  1. 我们需要输出翻译的第一个词,这个时候其实我们不用关注整个句子,只要关注原来第一个词附近的部分
  2. 这里设定 attention weights,在第一个信息块放 α<1,1> 的权重,第二个信息块放 α<1,2>,然后 α<1,3>
  3. 这就汇聚成了第一个单元的输入 C(需要放注意力的上下文 context)
  4. 对于第二个单元 S<2>,有新的权重 α<2,1>, α<2,2>, α<2,3>,另外还有第一个单元产生的词作为输入
  5. 然后继续后面的单元,直到整句翻译完成

Attention model

应用注意力模型


这里用的是双向 RNN
也可以用双向 GRU,或者双向 LSTM(更常用),来计算每个词的特征

  1. 这里我们用 a 来表示在 t 时间前向和反向的值,即 step t 时候的特征向量
  2. 解码层中,第一个单元的输入 C
  3. 我们使用注意力参数 attention parameters:α<1,1>,α<1,2>,等(权重皆为非负数,和为1)
  4. 不同 time steps 中的特征值加权求和

上层的网络相当于标准的 RNN 序列

NLP中的注意力模型 Attention model(学习心得)_第3张图片
这里的公式就可以计算出 α
使用 softmax 比例,确保各个权重相加等于 1

NLP中的注意力模型 Attention model(学习心得)_第4张图片
如何计算 e 呢?
可以用一个小型的神经网络
上一步的状态 s 和 这一步的 a
所以应该放多少注意力在 a,主要取决于上一步隐藏状态的激活值(当前状态的激活值 S 还计算出来)
这种依赖的函数关系未知,但是可以用梯度下降的方法获得

事实上,如果对整个网络梯度下降,那这个小型的神经网络也能起到作用,告诉我们 y_hat 应该放多少注意力在 a

这个方法有个缺点:耗时,耗费额外的计算,quadratic cost(二次代价函数)
如果有 T_x 个输入,T_y 个输出,那总的参数个数是 T_x✖️T_y 个
机器翻译中,输出和输出一般都不会太长,所以 quadratic cost 还是可以接受的

这里讲的都是机器翻译
但是注意力模型还被应用到了别的领域,比如给图片添加标题,注意力只集中在图片的某个部分,而不是整幅图片

NLP中的注意力模型 Attention model(学习心得)_第5张图片
日期标准化问题
我们可以训练一个神经网络,输入任何格式的日期,都可以使用注意力模型转换成标准格式

NLP中的注意力模型 Attention model(学习心得)_第6张图片
我们还可以将权重 α 进行可视化
在机器翻译中,可以发现对应的词权重会很高,也就是翻译的时候,注意力集中在了正确的词上
机器自己学习了注意力应该集中在什么地方

你可能感兴趣的:(NLP)