论文阅读:LinkNet: Relational Embedding for Scene Graph

LinkNet(NIPS 2018)

文章
  一两个月前在NIPS2018的官网上看到这篇论文,最近终于在arxiv上看到了,于是迫不及待地就读了,下面就来一起来看看这篇来自KAIST的LinkNet吧。
  论文的主要创新点是对于scene graph generating任务设计了一个relational embedding module,可以利用图片中所有的物体的特征对某个物体的特征进行更新,此外还提出了Global context encoding module来encode全局的context信息,和geometric layout encoding module来显式使用几何布局的信息。

论文阅读:LinkNet: Relational Embedding for Scene Graph_第1张图片

Global Context Encoding Module:
  将整张图片的信息encode成一个特征,concat到每一个物体的特征后面。而整张图的信息则是通过一个对图片进行多分类的任务得到的,直接取多分类的FC层前一层的AvgPool的结果作为global context。注意一张图上的所有物体都用的是这个global context。

Object Feature:
  除了用RoIAlign得到的feature以及global context外,每个bounding box还使用 detector对它得到的类别概率分布,将类别概率分布做一个线性变换之后和RoIAlign特征以及global context拼接起来作为每个bounding box的特征。

Relational Emebedding Module:
  首先给出公式

其中O是N*4808的物体特征矩阵,表示N个物体,特征维度为4808(类别概率分布,roialign和global context),W,U和H则是降维变换,于是R1可以看做一个物体之间的关联矩阵,矩阵第i行素代表第二个式子中更新第i个物体特征时N个物体特征每个占的权重。其实这个和图卷积差不多。另外从模型的示意图中可以看到,这个Module可以叠加,本文使用了两次叠加的效果比较好。

Geometric Layout Encoding:
  论文作者认为subject和object之间的相对几何关系对于relationship recognition有很大帮助,因此显式地将subject-object几何关系利用了起来。首先将相对几何关系表示成下面的向量,然后做个线性变换成一个128维的向量。


Edge Relational Embedding:
  首先是用于Relational embedding的物体特征,是由两部分拼接起来的,第一部分是object recognition阶段的relational embedding的第二层的FC的输入,第二部分是将FC的输出也就是类别分布取了argmax之后变成onehot编码然后进行了线性变换。


  得到了物体特征E0之后,使用Relational embedding,最终变成了Nx8192的特征矩阵,**其中前4096维指该物体做subject时候的特征,后4096则是object**。然后对于每对object-pair,要判断其关系时,就需要4部分特征,subject特征,object特征,unionbox的RoIAlign特征,相对集合关系特征。结合这几种特征的方式如下
  最后看看实验结果,效果很牛逼,超过了motif蛮多的。但是。。。。问了原作者,emmmm。。。**backbone用的是ResNet**,人家motif用的VGG-16啊。
论文阅读:LinkNet: Relational Embedding for Scene Graph_第2张图片
然后为了证明几个模块的有效性,也做了细致的对比实验
论文阅读:LinkNet: Relational Embedding for Scene Graph_第3张图片
其中REM,GLEM,GCEM分别代表relational embedding module,geometric layout encoding module,global context encoding module。可以看到确实后两个模块都是有作用的,但是看不到第一个REM的作用,要是有个三个模块都没有的实验结果就好了,可是作者不公开,发邮件问了也不给,因为和三星的保密合同吧。。。。嗯。。。就酱紫

你可能感兴趣的:(论文阅读:LinkNet: Relational Embedding for Scene Graph)