论文“Iterative Context-Aware Graph Inference for Visual Dialog”读后总结
1、介绍我们完成的任务是视觉对话
2、提出图结构可以解决问题
3、提出我们的方法,并点出两个创新点,a.客观物体的(视觉上的)和历史相关的(文本的)上下文表示,b.使用自适应top-k消息传递机制进行迭代更新。
1、介绍任务,任务挑战(关键词:relational reasoning,graph structure,context-aware co-reference)
2、使用图1介绍最重要的创新点。
图1设计思路:
(1)要体现我们方法中最重要最直观的创新点,即视觉信息和文本信息的结合。
(2)文本信息使用了历史文本的信息。
由以上两点思路,我们的图像需要是双流的,并且在文本信息部分要可以展示对历史信息的使用。
输入为图像和本文,输出为一个图结构,图中的每个节点都对应着一个联合语义特征,包括基于客观物体的(视觉上的)和历史相关的(文本的)上下文表示。
3、使用图2介绍本文的方法流程。
图2设计思路:
(1)先写出本方案的流程。
(2)文章的创新点在于:a.客观物体的(视觉上的)和历史相关的(文本的)上下文表示,b.使用自适应top-k消息传递机制进行迭代更新。所以在流程图中,这两个部分应该具体表现。
(3)对于创新点a,在图1中已经有过一次大略的介绍,所以在这里最好不要和图1一模一样,流程图表现的时候可以稍微简略一些。而对于创新点b,在后续的图3中会具体说明。
(4)根据两个创新点,我们可以把流程图分成两个部分,a.结合图像文本信息的原始图结构的生成(对应论文后续方法中的3.1)b.图结构top-k迭代(对应后续方法中的3.2)。
1、视觉对话
2、图神经网络
如何对上下文感知推理进行建模至关重要。在本文中,我们提出了一个动态有向图推理来迭代检查多模态上下文线索。目标是通过对100个候选答案进行排序来推断当前问题Q的准确答案。
1、图结构(图1与创新点a的原理公式介绍)
(1)特征表示
文本信息编码的公式:
(2)图形表示
图节点的表示公式:
2、top-k迭代(与创新点b对应)
图3设计思路:
(1)利用问题中单词级的信息来对生成的图进行迭代更新,所以在绘制的时候需要突出单词级信息。
(2)Top-K迭代,每一个节点会受到其他节点的影响,可以用箭头来表示一个节点对于其他节点的影响。
1、消融实验
(1)对top-k迭代更新进行消融,可以进行两个实验:
a. top-k的k取值问题的消融实验。
K的取值 | MRR | R@1 | R@5 | R@10 |
---|---|---|---|---|
1 | ||||
2 | ||||
4 | ||||
8 | ||||
10 |
b.迭代次数t的消融实验。
t的取值 | MRR | R@1 | R@5 | R@10 |
---|---|---|---|---|
1 | ||||
2 | ||||
3 | ||||
4 | ||||
5 |
(2)在得到最好的k和t之后,我们对双流特征网络进行消融。
网络 | MRR | R@1 | R@5 | R@10 |
---|---|---|---|---|
没有文本上下文信息的CAG | ||||
没有图像上下文信息的CAG | ||||
没有单词级注意力的CAG | ||||
没有图迭代的CAG | ||||
CAG |
2、对比实验
和现有的其他方法进行比较。
3、可视化结果
利用一张或者两张图作为范例,可视化地展示我们的方法。
图5 迭代上下文感知图推理的可视化结果。它显示了对问题Q的单词级关注,以及图像I中前2个关注对象(红色和蓝色边界框)的动态图形推理。(一个对话多轮自适应迭代)
图6 渐进多轮对话推理的可视化结果。每一列显示覆盖图像I和最显著对象的消息传递过程的最后一步的图形关注图。
图7 不同迭代步骤中所有问题{Q}的关注词云可视化。每次迭代关注的重点是不一样的,可视化的证明了我们的top-k自适应迭代是有用的。