【论文阅读笔记】Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.

2015-ICML

K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y. Bengio.

  • motivation:

提出基于注意的方法。像人类一样根据需要,动态地关注显著特征;缺点是可能会丢失某些信息(可以通过一些方式及时保存)。这需要一个机制来引导模型获取当前的重要信息。

  • Contribution:

  1. 提出两种形式,结合注意力机制和caption任务。“soft”attention和“hard”attention。

  1. 可以通过可视化注意力集中在什么地方,来解释结果。

  1. 三个数据集Flickr8k、Flickr30k、MS COCO上验证注意力在caption任务的有效性。

  • 方法:

输入一张图像,输出一个由C个编码单词组成的序列y。(词汇表大小为K,C<=K)

  1. 框架

【论文阅读笔记】Show, Attend and Tell: Neural Image Caption Generation with Visual Attention._第1张图片
  1. Encoder

从卷积神经网络提取L个特征向量ai,每个D维且对应图像中一个位置。

特别之处:从较低的卷积层提取,而不是最后的全连接层。便于选择关注于图像的某些部分。

  1. Decoder

每步生成一个词来生成标题,给定上下文向量、上步的隐藏状态、上步生成的单词。

上下文向量zt:实现attention的方式,由时间和位置区域决定,对于每个时间的每个区域都定义一个权重αti (使用多层感知机,给定上步隐藏状态),它可以解释为位置i是生成下一个单词的正确位置的概率。由特征向量ai计算得来。

【论文阅读笔记】Show, Attend and Tell: Neural Image Caption Generation with Visual Attention._第2张图片
【论文阅读笔记】Show, Attend and Tell: Neural Image Caption Generation with Visual Attention._第3张图片

机制φ是一个函数,a和α=>z

有soft和hard两种形式

最后,通过最大概率求得当前时刻输出的词,并作为下一时刻的输入,从而获得caption的结果。

  1. 注意力机制

  1. Hard

这里权重αti所起的作用:是否被选中,只有0和1两个选项,所以引入了变量st,i,当区域i在时刻t被选中时为1,否则为0。

【论文阅读笔记】Show, Attend and Tell: Neural Image Caption Generation with Visual Attention._第4张图片

st,i什么时候是1,是0?不管,作为中间量。定义Ls。

优化它,得到模型参数W。

总之根据参数为α的多项分布在每个时间点返回一个选定的ai

  1. Soft

不像hard对特定时间特定区域只有关注和不关注,soft里对每个区域都关注,只是关注的重要程度不一样,所以此处的权重αti对应着此区域所占比重,zt可以直接通过比重加权求和得到。

此时,可以使用标准的BP算法通过梯度进行学习。

文章定义了归一化加权几何平均值(NWGM)这能表示caption结果有效。也表示soft attention是关于attention位置的边缘似然的近似。在训练soft attention时,引入双向随机正则,目的是让attention平等对待图片的每一区域。

另外,在每一个时间步上从上一个隐态推出标量β,从而更关注图片里的物体。

最终优化:

  1. 可视化

为了更好地了解attention的效果,对模型进行了可视化,如下图所示,可以看出attention机制可以学习到类似于人注意力一样的信息。

【论文阅读笔记】Show, Attend and Tell: Neural Image Caption Generation with Visual Attention._第5张图片

  • 总结:

本文受机器翻译的attention机制启发,将其应用到image caption领域,并提出了hard和soft两种attention机制。相比较来说,hard attention更难训练,效果也更好。这篇文章打开了attention图像领域的先河。

2022-02-14

by littleo

你可能感兴趣的:(论文阅读,神经网络,深度学习,计算机视觉,人工智能,自然语言处理)