cvpr-cjs

论文“Iterative Context-Aware Graph Inference for Visual Dialog”读后总结

摘要

视觉对话是一项具有挑战行的任务,图模型已经被广泛用来做推理,然而图节点的表示方法和图的更新任然有待研究;我们提出了一个细粒度的视觉信息和历史文本信息联合学习的图节点,并且采取了一个TopK的有效图模型更新机制,在实际中取得了和好的效果。

基于细粒度的视觉信息表示和历史文本信息的图节点表示我们给出了以下的画图思路:

图一的目的要突出以下几点:

  1. 图结点的表示方法不同,本文作者是细粗度的视觉信息和历史语义信息混合的联合学习图节点

  2. 视党本信息的提取方法(RNN)

  3. 当前轮次对话的Question 与字幕C和以前的轮头中Q和A的编码

  4. 视觉信息和文本信息的融合( Fusion)

  5. 证明我们图结点和其他用模型结点不同并具有联合语意信息

cvpr-cjs_第1张图片

图一(a)表示的是其他典型的图模型(基于历史文本信息不包含视觉信息)

(b)视觉信息和文本信息各自成为节点(c)具有联合语义信息的图节点

最近的工作

1.围绕视觉对话的历史及其典型的方法进行介绍

本部分内容主要针对自己的创新点,按行文的顺序,介绍图表和章节的大致意思,总结如下几点:

1.对本任务的最近发展方向和趋势进行阐述,attention机制,融合机制,视觉参考模型等

2.自己的创新点(跨模态语义理解)是重要的,因此我们提出了自己的解决方案,如图

3.某些方法已经被人用过了,介绍别人的方法,我们的方法虽然相似但是不同的是,可以指出别人的不足,也可以强调自己的强势之处….(图被用来推理,但是我们的图不一样)

4.本文每个图的简介和行文布局

5.我们的贡献

​ 1.提出了一种联合语义的图节点,包含细粒度的视觉和历史文本信息

2一种有效的图更新方法topk信息传递机制

3.实验证明在多个数据集上取得了最好结果

因此给出的整个模型的实验流程:

  1. 图一中已经给出了部分输入的画图表示,因此避免版面的浪费和冗余加入更多的细节。

  2. TopK机制是自己的创新点需要单独画出来,因此在整个的流程图中我们要从简画出
    cvpr-cjs_第2张图片

详细介绍

要详细介绍每个模块的实现过程,描述细节上的实现包括一些设计的原理,代码上的具体实现,数学公式的推导

这部分行文的顺序有:

  1. 每个模块单独一个章节
  2. 给出模块的解释和具体的实现原理以及其公式
  3. Top-k消息传递机制的详细解释

例如图节点的表示:

cvpr-cjs_第3张图片

为了详细解释Top-k的含义我们给出了一个时间步的解释,包含以下两方面:

  1. 每一步根据词语级别的attention获取相关性矩阵

  2. 每个节点收集和自己最相关的前k个节点的信息

cvpr-cjs_第4张图片

实验部分

  1. 自己的消融实验,每个模块的超参数的实验,时间更新步长3,top-k的k
  2. 证明每个创新点成立,证明创新点融合效果更佳
  3. 根据实验现象给出解释,为什么很重要k>8信息冗余,k<8信息不足
  4. 和其他模型的对比,给出相应解释

消融实验与创新点对应。

cvpr-cjs_第5张图片

图4 top-k自适应迭代的消融

表1 双流特征网络的消融

CAG w/o u表示没有文本历史上下文u的CAG,其中整个图形仅描述视觉上下文线索。CAG w/o Q-att表示在问题Q上没有单词级关注的CAG,CAG w/o G-att去掉了图关注模块。

对比实验cvpr-cjs_第6张图片

可视化的解释

这一部分主要是基于自己的主观上的理解给出提出方案的可视化说明,进一步证明方案是有效的可行的。比如本文提出的细粒度视觉信息和历史文本信息的融合,由于融合信息本身是抽象的,因此作者分别从图像和文字两部分以一个小案例解释提出的方案的工作机制的整个流程及其有效性;可视化地对原理进行解释。

  1. 图5 迭代上下文感知图推理的可视化结果。它显示了对问题Q的单词级关注,以及图像I中前2个关注对象(红色和蓝色边界框)的动态图形推理。(一个对话多轮自适应迭代)

  2. 图6 渐进多轮对话推理的可视化结果。每一列显示覆盖图像I和最显著对象的消息传递过程的最后一步的图形关注图。
    cvpr-cjs_第7张图片

你可能感兴趣的:(cvpr-cjs)