cvpr-jch

论文“Iterative Context-Aware Graph Inference for Visual Dialog”读后总结

摘要

1、 明确任务和难点

视觉对话是一项具有挑战性的任务,它要求理解隐含的的视觉语境和文本语境之间的语义依赖关系。

2、 为了完成任务,我们应该怎么办?

参考具有稀疏上下文和未知图结构(关系描述符)的图模型中的关系推理,而如何对底层上下文感知的关系推理建模是关键

3、 自己的解决方法。

提出了一种新的情境感知图(CAG)神经网络。提出创新点:1)图中的每个节点都对应着一个联合语义特征 2) 图结构(对话框中的关系)使用自适应top-k消息传递机制进行迭代更新。

1、 引言

1、 介绍我们的任务以及任务所面临的挑战

2、 图1中利用不同的方法对比,体现出自己方法创新点。但是图1中大概的描绘了本文提出的方法。这样会引人入胜,使审稿人有继续探究的兴趣。

图1的设计思路:

(1) 图片需要体现出文章将细粒度的视觉信息和历史语义信息两者相融合的这个创新点,即将图像信息和文本信息混合输出。

(2) 图像信息提取的方法(RCNN)

(3) 历史文本信息和当前的Question Q的结合方式。(相加)

(4) 图像信息和文本信息结合的方式以及输出的形式。(拼接和图结构)

基于以上设计思路,图1通过输入文本和图像信息经过固定的特征提取,再通过拼接的方式进行结合。最后输出的每一个节点均为联合语义信息
cvpr-jch_第1张图片

3、 图1主要体现了第一个创新点,第二个创新点还是不明显。这里图二将整篇文章的创新点做了一个结合,更加详细的介绍了本文的两个创新点。在这里,较为详细的描绘了第二个创新点,即自适应top-k消息传递机制。所以,中间部分要特别的体现出来。

图2设计思路:

(1) 需要体现第二个创新点的实现过程,但是因为整张图需要体现的信息太多,可稍微简略一些。更加详细的实现过程具体的可在图3中体现。

(2) 这里想要全局式的将所有过程体现出来,第一个创新点也要保留,可稍微简略一点,但是也不要跟之前一模一样,可稍微改变一下,后面输出过程也需要在图片中得到体现

(3) Word-level Attention需要在图中体现

基于以上设计思路,图2在图1的基础上,更加详细的描绘了第二个创新点。同时如何输出得到结果的过程以及部分数据流的细节也需要在图二中体现。
cvpr-jch_第2张图片

2、 相关工作

1、 视觉对话

2、 图神经网络

3、 文章提出的方法模型

3、方法论

1、图结构(第一个创新点)

(1)特征表示

cvpr-jch_第3张图片

文章方法部分,通过公式1来显示文本信息是如何处理的,这样更加使人信服。同时公式1也体现了文章中所提出的文本信息处理的数据流,使读者更好的理解其中过程。

(2)图形表示

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-59zWT63T-1611977691720)(file:Users/jiangchaohui/Library/Group%20Containers/UBF8T346G9.Office/TemporaryItems/msohtmlclip/clip_image004.png)]

​ 公式2是图中节点的表示公式。

2、迭代动态有向图推理,即Top-k消息传递机制(第二个创新点)

​ 这是文章第二个创新点。前面通过图2的形式粗略的展示了一下,这会使读者更想进一步了解其更加详细的工作机制。所以通过下图展现。

​ 图3的设计思路:

(1) 需要体现出迭代更新这个特点,所以可利用G(t)和G(t+1)显示。

(2) 问题条件下的相关反馈

(3) 一个节点同时也会受到其它节点的影响

cvpr-jch_第4张图片

3、图注意力嵌入

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RTOE6KQt-1611977691728)(file:Users/jiangchaohui/Library/Group%20Containers/UBF8T346G9.Office/TemporaryItems/msohtmlclip/clip_image010.png)]

利用该公式可以直接体现图注意力是如何被学习的,直接体现数据流,简单明了

4、 实验

1、 实验准备(数据集和实现细节)

2、 消融实验和对比实验

2.1 消融实验

首先通过图4显示当K=8时表现最好,所以实验部分使用k=8。这样利用图片形式表现自己为什么这样设置,更有说服力。

cvpr-jch_第5张图片

紧接着表格1迭代次数t进行消融实验,得到最好的t。这样通过表格形式也更加有说服力。

在选出最好的迭代次数t和top-k中的k的取值之后,表1同时也对双流网络进行消融实验。

cvpr-jch_第6张图片

2.2 对比实验

表2体现了本文提出所使用的CAG-VGG模型突出的性能

cvpr-jch_第7张图片

3、 对比结果

和现有的其它方法进行全面的比较

cvpr-jch_第8张图片

4、可视化结果

通过这三张图,更加清晰的展示了本文所提出的方法,同时也是为了证明该方法是有用的。

cvpr-jch_第9张图片
cvpr-jch_第10张图片cvpr-jch_第11张图片

你可能感兴趣的:(cvpr-jch)