Image Captioning with Semantic Attention具有语义注意的图像标题学习笔记

Image Captioning with Semantic Attention具有语义注意的图像标题学习笔记

1主要贡献:

本文的主要贡献是一种新的图像字幕算法,该算法基于一种新颖的语义注意模型。我们的注意模型自然地将复杂神经网络框架中的自上而下和自下而上方法中的视觉信息结合起来。与最先进的方法相比,我们的算法可以显着提高性能。

2论文模型:

首先从图像中提取自上而下和自下而上的特征,利用cnn来进行特征提取,构建由v表示的全局视觉描述,还运行一组属性检测器(属性检查器 是我们查看并编辑当前选中节点和组件属性的工作区域。就会在 属性检查器 中显示该节点的属性和节点上所有组件的属性以供您查询和编辑)来获取最有可能出现在图像中的可视属性或概念{}的列表,每个属性ai对应于我们的词汇集或字典Y中的条目,我们根据ai去描绘他的特征。
然后这些特征都被输入回归神经网络(RNN)以生成标题
Image Captioning with Semantic Attention具有语义注意的图像标题学习笔记_第1张图片
图:提议的图像字幕系统的框架。将CNN响应v和属性检测的视觉特征注入RNN(虚线箭头)并通过反回路(蓝色箭头)融合在一起。输入模型和输出模型φ都强制关注属性

与以前的图像字幕方法不同,我们的模型有一种独特的方式来利用和组合不同的视觉信息源。CNN图像特征v仅用于初始输入节点,其预期为RNN提供图像内容的快速概览。一旦初始化RNN状态以包含整体视觉上下文,就能够从中选择特定项目,以便在后续时间步骤中进行与任务相关的处理,具体公式如下:
Image Captioning with Semantic Attention具有语义注意的图像标题学习笔记_第2张图片
公式1是cnn提取特征
公式2是RNN回归生成标题
公式3与公式4分别为为输出注意力模型和输入注意力模型

2.1输入注意力模型(公式4)

在这里插入图片描述
exp是指以softmax函数的方式将所有{Ai}进行归一化
Ati权重:Ai 与前一个预测单词 Yt−1 的相关性的权重
U 是词典大小的矩阵。我认为可以这样理解,这个矩阵存放着每个单词和其他单词之间的相关性,Yt−1 和 Ai这样的one-hot向量对UU相乘就是进行一个查表的操作。这个矩阵只跟单词有关,同一个单词即使在句子中的不同位置出现,它下一个单词的αit都是一样的。
yt−1, yi: Ai的one-hot representation
在这里插入图片描述
其中U是dXd大小的矩阵。
计算后,注意力分数用于调节不同属性的注意力。由于U的维度太大,这里加入了word embedding 矩阵E来进行降维
在这里插入图片描述

2.2输出注意力模型(公式3)

和输入类似由于所有信息对于预测当前状态捕获的非常有用,因此每个属性的得分都是针对进行测量的,输出注意力模型与输入注意力模型很像,我就不详细描述了。

2.3损失函数

Image Captioning with Semantic Attention具有语义注意的图像标题学习笔记_第3张图片
这个损失函数前面其实并没有创新的地方,后面则增加了g(a)和g(b
)两个正则化,来减少过拟合的发生(上面图片来自于他人bk)

3视觉属性预测

作者提出了两种方法

3.1非参数属性预测(无标签)

从大图像数据集中提取关键词作为我们模型的视觉属性。为了与其他现有工作进行公平比较,我们只对我们的训练集进行最近邻搜索以检索类似的测试图像,期望通过使用更大的web-scale数据库可以进一步提高属性预测的准确性(最近邻检索就是根据数据的相似性,从数据库中寻找与目标数据最相似的项目,而这种相似性通常会被量化到空间上数据之间的距离,可以认为数据在空间中的距离越近,则数据之间的相似性越高。当需要查找离目标数据最近的前k个数据项时,就是k最近邻检索(K-NN))

3.2参数属性预测(有标签)

基于视觉识别任务。选择训练集描述中最普通的词作为一个固定的视觉属性集合,图片的视觉属性可以看做类别子集,学习一个卷积多标签分类问题。首先通过从训练数据中的标题中选择最常用的单词来构建一组固定的视觉属性。得到的属性被视为一组预定义的类别,可以像传统的分类问题一样学习。

4 实验:

使用Microsoft COCO标题评估工具1报告所有结果,包括BLEU(,取值范围在0-1, 取值越靠近1表示机器翻译结果越好),Meteor,Rouge-L和CIDEr ,我们选择流行的Flickr30k和MS-COCO来评估我们模型的性能
除注意力模型(ATT)之外,通过简单地采用嵌入属性向量的元素方式(MAX)或级联(CON)

来测试两种利用检测到的属性的基于融合的方法

由表1可知Att模型最好
Image Captioning with Semantic Attention具有语义注意的图像标题学习笔记_第4张图片
由表2知具有由FCN模型预测的属性的注意力模型ATT在所有基准上产生比其他组合更好的性能。
Image Captioning with Semantic Attention具有语义注意的图像标题学习笔记_第5张图片
图:注意权重的例子随着字幕的生成而变化。第二行:输入注意权重α。第三行:输出注意权重β。X轴显示生成的标题 Y轴是权重.我们仅在每个示例的三个顶部视觉属性上显示权重的变化。(单独使用input或者output attention的效果,发现只使用一个的话只对模型只有少量的提升,但同时使用则有较大提升,说明两个具有比较强的协同作用)?

5结论

在这项工作中,我们提出了一种新的图像字幕任务方法,它在流行的标准基准测试中实现了最先进的性能。与以前的工作不同,我们的方法结合了自上而下和自下而上的策略,从图像中提取更丰富的信息,并将它们与可以选择性地参与从图像中检测到的丰富语义属性的RNN耦合。因此,我们的方法不仅利用对输入图像的概述理解,而且利用丰富的细粒度视觉语义方面。我们模型的真正力量在于它能够参与这些方面并无缝融合全球和本地信息以获得更好的标题。对于后续步骤,我们计划尝试使用基于短语的视觉属性及其分布式表示,以及为我们提出的语义注意机制探索新模型。

你可能感兴趣的:(多模态,计算机视觉,论文,NLP,标题生成)