《Good News, Everyone! Context driven entity-aware captioning for news images》笔记

这篇文章能够利用与图像相关的新闻文章的文本来提供上下文信息。这个模型能够有选择的从由视觉线索引导的文章中提取信息,并且动态的将输出字典拓展到出现在上下文源中的词典外的命名实体。同时作者还提出了一个新闻图像描述数据集“GoodNews”。

用于上下文驱动的实体感知描述的模型由两个连续阶段组成:(1)输入图像和对应的新闻文本,生成一个句子模板,其中占位符用来指示命名实体的位置;(2)在整个文章上的注意力机制下,选择正确的命名实体实体填充占位符。

生成描述模板。对于要生成的句子:

其中,表示注意的文章特征,表示注意的图像特征

基于注意力编码文章。第i个文章的句子层级的特征,其中是文章中的第j个句子,是从预训练的GloVe模型获得的词向量。首先对文章的每个句子用一个简单的单词平均:

作为替代方案,还可以根据平滑的逆频率使用单词向量的加权平均值,因为词向量在语义无意义的方向上有巨大的分量:

还可以使用TBB方法,从文章编码的加权平均值中减去PCA的第一个组成部分,因为根据经验,数据集的顶部奇异向量似乎难以对应句法信息或常用词:

获得句子层级的特征,M是固定的句子长度,Dw是词向量的维度。设计一个注意力机制:

用一个全连接层学习注意力。

除了改进描述模板的生成,注意力的使用使得模型能够在注意力向量的基础上选择正确的命名实体。

插入命名实体。为了将该方法与标准的图像描述模型进行比较,作者提出了三种方法,其中前两种架构不考虑文章的文本特征:

(1)随机插入。从文章中随机选择tag同个类别下的命名实体。

(2)基于文本的插入。根据生成的模板描述的嵌入,利用预训练的GloVe嵌入的余弦相似性来排序文章的句子。然后在排序的基础上插入命名实体。

(3)基于文章上的注意力机制插入。用在模板描述生成中产生的βt来插入命名实体,不使用额外的插入方法。

你可能感兴趣的:(论文笔记)