论文阅读:Detecting Visual Relationships Using Box Attention(ICCV19)

这篇论文的思想也挺简单的:目标检测网络+box attention input

论文阅读:Detecting Visual Relationships Using Box Attention(ICCV19)_第1张图片
对于上面这幅图来说,如果attention map是空的,那么模型会检测出图像中所有的主语,如果attention map注意到右边的人,那么模型会找出与这个attention map所表示的主语产生交互的宾语(bbox和类别),和谓语(类别)。如果attention map注意左边的人同理。

那么,attention map又是什么呢?
attention map是与原图像大小相同,channel为3的二值图,第一维channel表示的是图像上的主语bbox。如果第一维是empty,第二维就是全1,第三维就是全0。如果第一维不是empty就倒过来。

把attention map加到目标检测网络也很简单:

论文阅读:Detecting Visual Relationships Using Box Attention(ICCV19)_第2张图片

训练时:
如果一张图片里有k个主语,那么首先把这张图片复制k份,每一份附上主语的attention map,同时与这个主语相关的宾语及谓语作为gt,这是k个训练样本。再把这张图片复制一份,附上empty attention map,同时全部主语作为gt,这是第k+1个训练样本。

测试时:
先输入图片和empty attention map到模型中,输出主语bbox和主语类别。再从主语bbox中提取attention map,再输入一次模型,就得到与主语相关的宾语的bbox、宾语和谓语类别。然后将主谓宾三者的置信度相乘,分数最高就是最终的结果了。

------------------------------------一些碎碎念---------------------------------------
今天大师兄已经回实验室了QAQ
我不想那么早回去
我还想再苟苟嘤。

后天去看这个杀手不太冷静
这总不能踩雷了吧。

---------------------------2022.02.14-------------------------
补个影评 真的好好看
学校延迟返校了
现在心情就是比较纠结
又想早回又不想早回。

你可能感兴趣的:(机器学习,深度学习,机器学习,计算机视觉,场景理解,视觉关系检测)