论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)

翻译一下题目:针对视觉推理的外部知识整合
一句话简介:用场景图做VR
(仔细VQA和VR还是不同的,就改成VR了)

论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)_第1张图片
论文提出了两个贡献点:
1.Knowledge Incorporation Network,简称KI-Net,用于将外部知识图谱和场景图合并,生成更丰富的场景图
2.Graph Relate模块,简称G-Relate,用于将注意力转移,以获得高维注意力

1.KI-Net
模型框架中的那个黄色的框。输入是由外部数据集生成的知识图谱和由本图像生成的场景图,具体合并过程如下:
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)_第2张图片
(1)拓扑扩展
把场景图和知识图谱相同含义的结点桥接在一起,比如SG中的snow就和KG中的snow用一条边连了起来,这是为了之后的消息传递
然后给场景图添加新的备选结点:如果场景图中存在某个结点(man),这个结点知识图谱中也有,而且知识图谱中的结点和另一个结点(shirt)是邻接的关系,那么把“另一个结点”和它的谓语加到场景图上,特征用的是知识图谱的特征,即word embedding

(2)语义细化
得到合并的场景图后,先进行一次消息传递,消息传递的方法来自下面这篇论文
Bridging knowledge graphs to generate scene graphs
传递完毕后,每个结点vi就有了自己的特征hi,然后进行另一种消息传递,即图注意力网络,用来计算相关性矩阵。因为从知识图谱中加进去的跟图像不一定有关系。

对于所有的结点,这里的结点包括场景图的物体谓语以及知识图谱的物体谓语
在这里插入图片描述
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)_第3张图片
mij构成M,就是相关矩阵了

备选结点如果和邻接的结点的相关性分数之和小于某个阈值,就把它丢弃,这里的“结点”我觉得应该只指物体结点。丢弃备选结点的同时把跟它相连的谓语也丢弃。
这样就得到了一个丰富的场景图(enriched scene graph)

2.G-Relate
推理的方式:神经模块网络,论文作者设计了三种模块:attention,logic,output,G-Relate是attention的其中之一
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)_第4张图片
G-Relate的核心就是计算转移矩阵以转移注意力,Wh就是转移矩阵
在这里插入图片描述

下面是计算转移矩阵的方法:
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)_第5张图片
uij={U1,U2,…,Un},为i到j的路径
上图中从phone到coffee有两条路径
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)_第6张图片
lij为拓扑距离,L为规定的长度
拓扑距离为1:一阶关联
拓扑距离在1~L之间:高阶关联
拓扑距离超过L:不认为有关联

----------------------------------一些碎碎念-----------------------------------
今天是开学的第二天。
我不想上课。

昨天买了个奥利奥千层蛋糕
希望不要踩雷。

你可能感兴趣的:(机器学习,计算机视觉,场景图,scene,graph,视觉推理,VQA)