论文阅读:Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019)

因为我的方向是场景图,所以仅介绍这篇论文中有关场景图的内容,不涉及VQA。
论文阅读:Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019)_第1张图片
(a)Feature Extraction
先对输入图像进行目标检测,每个proposal的视觉特征x包括以下特征:
ROIAlign feature(2048维),空间feature(8维),论文这里说视觉特征不局限于bbox,实例分割特征和全景特征也可以。

(b)构建可学习的对称矩阵S
(1)S的计算方法如下:
论文阅读:Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019)_第2张图片
f(xi,xj)称为对象相关性,g(·)称为依赖特定任务的特征
(q是任务特征,在VQA中是用GRU编码的问题特征)
对于SGG,g(xi,xj,q)取1,因为对于场景图,在没有“question”提供先验信息的情况下,每对物体的贡献都是平等的。

(2)由矩阵S构造VCTree
下图的Tree部分是已经构建好的,Pool中的n4,n5,n6是还没有加入到树结构中的。从S矩阵中选取最大的值,找到它对应的结点,加入到Tree中。直到Pool中没有结点。这样就得到了一棵结果树(resultant tree)
论文阅读:Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019)_第3张图片
结果树如下图左所示,然后保留结果树的最左结点,把非最左结点当做最左结点的兄弟结点,构造出如下图右所示的二叉树,这个就是VCTree了。
论文阅读:Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019)_第4张图片

(c)使用双向TreeLSTM编码上下文
(1)物体级别上下文编码
zi = [xi; W1c1],xi是物体的视觉特征,c1由目标检测网络得到的物体预测概率分布,通过W1进行维度调整。

下图第一个式子是正向的隐藏态,第二个式子是反向的隐藏态。hp是当前结点的父结点的隐藏态,hl和hr是当前结点的左右兄弟结点的隐藏态。
论文阅读:Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019)_第5张图片
物体级别的上下文编码如下图所示:

(2)关系级别上下文编码
使用另外一个TreeLSTM对do1,…don进行编码,得到关系级别的上下文编码。

(d)解码上下文
(1)物体类别预测
当前proposal的物体级别上下文和它在VCTree中的父结点的类别共同决定了它的类别。cp是当前结点父结点的预测概率分布,最终把hi(前向)输入分类器中,得到当前物体的类别概率分布。

(2)谓语类别预测
把gij送入分类器进行分类得到谓语的预测概率分布

dij:物体i和物体j的关系级别上下文特征

vij:物体i和物体j的union box的ROIAlign特征
bij:物体i和物体j的空间特征

由于S的计算不是完全可导的,因此采用混合学习:整个混合学习将在监督式学习和强化学习之间交替进行,我们首先利用最终任务进行有监督的预训练;然后固定最终任务,以此作为奖励函数来学习强化策略网络;然后用新的强化网络监督学习最终的任务。后两个阶段在我们的模型中交替运行2次。

------------------------一些碎碎念---------------------
昨天和朋友出去吃饭才知道隔壁实验室已经有人发出去小论文了。而且是9月份就在准备发了。
大吃一惊。
星期一有个论文分享,有个大佬也要准备发论文了。
好家伙我直接好家伙。
我还在读论文,人家已经发论文了。
而且又听说实验室5个还是4个博士名额9个人抢。
我tm直接emo。

你可能感兴趣的:(机器学习,场景图,scene,graph,场景理解,计算机视觉,cv)