论文阅读:Sketching Image Gist:Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)

论文阅读:Sketching Image Gist:Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)_第1张图片
这篇文章的重点有三个,都在框架里有体现:HET、Hybrid-LSTM和Relation Ranking Module

1.HET(Hierarchical Entity Tree)
论文作者认为人在进行场景分析的时候是层级性的,因此提出了HET的概念,具体实现如下:
①按从大到小的顺序对检测到的实体排序1,2,…m,…n…
②对于n来说,首先判断它是否可能为父节点,即求m和n的交并比,如果大于阈值T,则m为n的备选父节点。如果n没有备选父节点,则n的父节点为整幅图像;如果n有多个备选父节点,那么可以遵循以下规则选出唯一的父节点:
i)Area First Strategy(AFS):面积优先
ii)Intersection First Strategy(IFS):交并比优先

2.Hybrid-LSTM
有两个,一个用于编码实体上下文,一个用于编码关系上下文
先编码实体上下文:
Hybrid-LSTM由BiTreeLSTM和BiLSTM构成,TreeLSTM编码层级间信息(蓝箭头),LSTM编码层级内信息(红箭头)
在这里插入图片描述
输入为物体的视觉特征和语义特征

再编码关系上下文:
关系上下文也是使用了Hybrid-LSTM,只是输入换成了实体上下文

编码之后再对上下文进行解码:
实体上下文:
在这里插入图片描述
使用了TreeLSTM,只有从上到下的方向。输入特征是实体上下文和父节点的物体类别,由hidden state计算实体的类别和位置回归参数

关系上下文:
在这里插入图片描述
两个物体的关系上下文cat在一起,再经过两层fc得到关谓语分数

3.Relation Ranking Module(RRM)
对三元组进行重排序
论文阅读:Sketching Image Gist:Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)_第2张图片
首先由原始的feature map,F,得到Fs
在这里插入图片描述
AAP:Adaptive Average Pooling
S:逐像素显著性图,参考论文Deeply supervised salient
object detection with short connections
A:逐像素面积图
论文阅读:Sketching Image Gist:Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)_第3张图片

图片里的v是视觉特征,g是位置特征
在这里插入图片描述
视觉特征和位置特征组成关系特征r,进入BiLSTM计算全局三元组上下文,再经过两层fc得到排序分数论文阅读:Sketching Image Gist:Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)_第4张图片
最终三元组的分数:
在这里插入图片描述

----------------------------一些碎碎念-------------------------
最近懒得不行。
啥啥都不想干 小说都找不到特别合心意的了。
冬奥会也结束了。
爷的快乐没有了。

你可能感兴趣的:(机器学习,深度学习,人工智能,场景图,scene,graph,场景理解)