cvpr-xsx

论文“Iterative Context-Aware Graph Inference for Visual Dialog”读后总结

摘要

1、介绍我们完成的任务是视觉对话

2、提出图结构可以解决问题

3、提出我们的方法,并点出两个创新点,a.客观物体的(视觉上的)和历史相关的(文本的)上下文表示,b.使用自适应top-k消息传递机制进行迭代更新。

1引言

1、介绍任务,任务挑战(关键词:relational reasoning,graph structure,context-aware co-reference)

2、使用图1介绍最重要的创新点。

图1设计思路:

(1)要体现我们方法中最重要最直观的创新点,即视觉信息和文本信息的结合。

(2)文本信息使用了历史文本的信息。

由以上两点思路,我们的图像需要是双流的,并且在文本信息部分要可以展示对历史信息的使用。

输入为图像和本文,输出为一个图结构,图中的每个节点都对应着一个联合语义特征,包括基于客观物体的(视觉上的)和历史相关的(文本的)上下文表示。
cvpr-xsx_第1张图片

3、使用图2介绍本文的方法流程。

图2设计思路:

(1)先写出本方案的流程。

cvpr-xsx_第2张图片

(2)文章的创新点在于:a.客观物体的(视觉上的)和历史相关的(文本的)上下文表示,b.使用自适应top-k消息传递机制进行迭代更新。所以在流程图中,这两个部分应该具体表现。

(3)对于创新点a,在图1中已经有过一次大略的介绍,所以在这里最好不要和图1一模一样,流程图表现的时候可以稍微简略一些。而对于创新点b,在后续的图3中会具体说明。

(4)根据两个创新点,我们可以把流程图分成两个部分,a.结合图像文本信息的原始图结构的生成(对应论文后续方法中的3.1)b.图结构top-k迭代(对应后续方法中的3.2)。
cvpr-xsx_第3张图片

2相关工作

1、视觉对话

2、图神经网络

3我们的方法

如何对上下文感知推理进行建模至关重要。在本文中,我们提出了一个动态有向图推理来迭代检查多模态上下文线索。目标是通过对100个候选答案进行排序来推断当前问题Q的准确答案。

1、图结构(图1与创新点a的原理公式介绍)

(1)特征表示

文本信息编码的公式:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vvuRWGHz-1611978374190)(file:Users/jiangchaohui/Library/Group%20Containers/UBF8T346G9.Office/TemporaryItems/msohtmlclip/clip_image004.png)]

(2)图形表示

图节点的表示公式:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iUzyGNkA-1611978374192)(file:Users/jiangchaohui/Library/Group%20Containers/UBF8T346G9.Office/TemporaryItems/msohtmlclip/clip_image005.png)]

2、top-k迭代(与创新点b对应)

图3设计思路:

(1)利用问题中单词级的信息来对生成的图进行迭代更新,所以在绘制的时候需要突出单词级信息。

(2)Top-K迭代,每一个节点会受到其他节点的影响,可以用箭头来表示一个节点对于其他节点的影响。
cvpr-xsx_第4张图片

4实验

1、消融实验

(1)对top-k迭代更新进行消融,可以进行两个实验:

a. top-k的k取值问题的消融实验。

K的取值 MRR R@1 R@5 R@10
1
2
4
8
10

b.迭代次数t的消融实验。

t的取值 MRR R@1 R@5 R@10
1
2
3
4
5

(2)在得到最好的k和t之后,我们对双流特征网络进行消融。

网络 MRR R@1 R@5 R@10
没有文本上下文信息的CAG
没有图像上下文信息的CAG
没有单词级注意力的CAG
没有图迭代的CAG
CAG

2、对比实验

和现有的其他方法进行比较。

cvpr-xsx_第5张图片

3、可视化结果

利用一张或者两张图作为范例,可视化地展示我们的方法。

cvpr-xsx_第6张图片

图5 迭代上下文感知图推理的可视化结果。它显示了对问题Q的单词级关注,以及图像I中前2个关注对象(红色和蓝色边界框)的动态图形推理。(一个对话多轮自适应迭代)

cvpr-xsx_第7张图片

图6 渐进多轮对话推理的可视化结果。每一列显示覆盖图像I和最显著对象的消息传递过程的最后一步的图形关注图。

cvpr-xsx_第8张图片

图7 不同迭代步骤中所有问题{Q}的关注词云可视化。每次迭代关注的重点是不一样的,可视化的证明了我们的top-k自适应迭代是有用的。

你可能感兴趣的:(cvpr-xsx)