论文阅读笔记Attention on Attention for Image Captioning.

Attention on Attention for Image Captioning. 

2019-ICCV

L. Huang, W. Wang, J. Chen, and X.-Y. Wei.

问题

  1. 解码器几乎不知道注意力加权向量V^和给定的查询Q是否相关或如何相关。

  2. 在某些情况下,注意力结果不是解码器所期望的。比如当没有满足特定查询的需求时,注意模块仍然返回一个加权平均向量,这与查询完全无关。

思路

  1. 从查询Q和加权值V^,生成 “信息向量”和“注意门”,相乘后,获得“关注信息”,即所期望的有用的信息。(AoA结构)

  2. AoA可以运用在不同的注意力机制。对于单头注意,AoA有助于确定注意结果与查询之间的相关性。对于多头注意,AoA有助于建立不同注意头之间的关系,过滤保留有用的注意结果。

Contribution

  1. 提出AoA结构。

  2. 将AoA应用在编码器和解码器,构成AoANet。在编码器中,AoA有助于更好地建模图像中不同对象之间的关系;在解码器中,AoA过滤掉无关的注意结果,只保留有用的结果。

方法

  1. AoA

  2. 论文阅读笔记Attention on Attention for Image Captioning._第1张图片

1)注意力模块fatt(Q;K;V),

对查询Q、键K和值V操作,生成加权平均向量V^。

论文阅读笔记Attention on Attention for Image Captioning._第2张图片

2)AoA模块,

衡量注意结果和查询之间的相关性。计算信息向量、注意门:

论文阅读笔记Attention on Attention for Image Captioning._第3张图片

 关注信息:

AoA在image caption任务上应用

1)Encode

论文阅读笔记Attention on Attention for Image Captioning._第4张图片

 A是CNN或R-CNN网络提取的图像特征,Q\K\V为A的三个独立线性投影。

采用多头注意函数得到加权向量V^,寻求图像中物体之间的交互,并使用AoA来衡量它们之间的关联程度。

2)Decoder

论文阅读笔记Attention on Attention for Image Captioning._第5张图片

 输入A的均值a,上一个时间步的上下文向量ct,词嵌入。

经LSTM输出ht,再经一个attention模块(可以自由选择单头或多头)生成a^t。

a^t是注意结果,相当于V^。h相当于Q。A相当于KV。

输入AoA得上下文向量ct,

AoA过滤掉无关的注意结果,只保留有用的结果。

词汇的条件概率:

优化目标

训练时优化交叉熵损失:

 使用自我关键序列训练(SCST)直接优化不可微指标:

总结

改善了以往的注意力机制,以解决不相关的注意问题,将AoA模型应用与编码与解码阶段,带来了最新的性能。并且具有优越性和普适性。

2022-02-14

by littleoo

你可能感兴趣的:(论文阅读,深度学习,python,人工智能)