论文阅读:Neural Motifs: Scene Graph Parsing with Global Context

Neural-Motifs(CVPR2018)

文章链接
官方github
  Paper给motif的定义是:regularly appearing substructures in scene graph。
  换句话说,subject和object的label对它们的relation影响很大,和DR-net差不多的想法,不过用了更复杂的网络来实现。基于motif的想法,paper提出了一个新的strong的baseline,直接用统计的relation关于物体label的条件频率进行预测,竟然state-of-art结果高,而再加上只有overlap的物体间才有关系时,结果更高了,而paper提出的方法,在这个strong baseline上只提高了1%左右,非常少
  Paper使用了基于vgg-16的faster R-CNN但是在visual genome数据集上finetune了detector。训练motif-net时,最开始使用object的ground truth训练,还采样了一些negtive relation,应该就是none relation吧,得到的网络用来进行predicate classification很好,但是和detector一起工作效果就很差了,于是paper又将detector和motif-net连接到一起,end-to-end的训练,当然了,固定了detector的参数,只是为了让motif-net对detector产生的noisy的结果更adaptive。 Paper发现,在vg数据集里,几乎所有relation都是发生在有overlap的bbox间,因此paper直接将无overlap间的bbox的relation判断为BG(background)。 有几个任务需要区分一下:

Task Input Output
Predicate classification Ground truth with label Relation
Scene graph classification Ground truth Object, relation
Scene graph detection/gen None Box, object, relation

  Paper这种忽略无overlap的relation的strong assumation有点钻了数据集的漏洞,像很多人的动作,如看,扔,打,说话等等,其实很有可能人的box和动作的宾语没有overlap。只是由于vg数据集里这种relation比较少,所以paper的这种方法看起来非常好。
论文阅读:Neural Motifs: Scene Graph Parsing with Global Context_第1张图片
  先把检测到的proposal,按顺序输入一个LSTM,综合信息得到C,然后c和label又过lstm迭代判断label。得到label后,把label和c共同输入下一个lstm,得到relation的context D,然后就遍历所有的可能关系对,将两个物体的context d和union box的特征用outer product结合。然后通过全连接,需要注意的是不同的object pair用的是不一样的bias,这就把motif融合进去了
  在按顺序将proposal输入LSTM的时候,paper研究了许多不同的方法,比如按置信度、从左至右、从大到小等等,最后的效果是按confidence最好,但其实都没有太大差别。

你可能感兴趣的:(论文阅读:Neural Motifs: Scene Graph Parsing with Global Context)