Image captioning with transformer and knowledge graph

Image captioning with transformer and knowledge graph

  • 创新点
  • 一、创新点1
  • 二、创新点2
  • 实验

2021 Pattern Recognition Letters 东南大学


创新点

本文使用相对熵(KL divergence)结合最大似然估计(MLE)作为目标函数,以区分不正确预测之间的差异。
MLE存在的问题:MLE不能区分不正确的预测。MLE以同样的方式处理与真实值不同的所有预测,而这些不正确的预测是不一样的。例如:bus->train 好过 bus->building
本文利用知识图谱生成标注:对于词汇表中的每个单词,其单词表示向量仅基于自身,这意味着它只使用自身的信息,通过利用知识图谱,我们不仅可以使用单词本身的信息,而且可以使用它的相邻信息。


提示:以下是本篇文章正文内容,下面案例可供参考

一、创新点1

为了解决负例多样性被忽视的问题,本文提出在最大似然估计目标函数上增加一项数据相关高斯先验目标函数(Data-Dependent Gaussian Prior Objective, D2GPo)增强训练。
数据相关高斯先验目标函数为生成文本的每一步中,计算预测词的概率分布pθ(x)和数据相关高斯先验分布q(y*)之间的KL散度。
在这里插入图片描述
最终需要优化的目标函数: min(Loss(MLE)+Loss(KL))
q(y*):
对于y中的单词yi,计算yi和y中的每个单词yj之间的余弦相似度:yi=yj时,max(cosθ)=1
在这里插入图片描述
使用一个评分函数计算词表中每个候选词yj的评分f(yj),评分函数选择的是高斯分布的概率密度函数。得分f(yj)表示yi和yj之间的相似性,分数越高表明yj与yi越相似,yi=yj。
由于概率密度函数在u=0时达到最大值,因此输入为cosθ-1,以确保yi为本身时分数达到最大值。
使用softmax函数对所有的f(y*)进行归一化,得到数据相关的高斯先验分布q(y*)

二、创新点2

通过利用知识图谱,不仅可以使用来自单词本身的信息,而且可以使用来自它的邻居的信息。 对于词汇中的每个单词,我们都需要为它们构建一个知识图谱。为了实现这一点,从其他单词中搜索与其最接近的N个单词,并将它们作为其邻居节点。(余弦相似度) 将单词和邻居单词连接起来,使用全连接神经网络计算得到新的特征向量。

实验

数据集与评估指标:MSCOCO,Flickr30K & BLEU-1,BLEU-4, METEOR, ROUGE-L, CIDEr, and SPICE。
Image captioning with transformer and knowledge graph_第1张图片
Image captioning with transformer and knowledge graph_第2张图片

你可能感兴趣的:(深度学习,transformer,知识图谱,机器学习)