论文地址:
https://openaccess.thecvf.com/content_CVPR_2020/papers/Ulutan_VSGNet_Spatial_Attention_Network_for_Detecting_Human_Object_Interactions_Using_CVPR_2020_paper.pdf
代码地址:https://github.com/ASMIftekhar/VSGNet
本文的研究主题是人物交互检测(HOI),包含对人,物的位置定位,交互判断,它是视觉场景理解,视觉问答,行为识别中任务的一部分,该任务目前的挑战:
(1)交互的通常以一种很细微的方式发生,同种交互在不同场景中可能存在很大的差异
(2) 一个人可以与多个物体发生交互,一个物体也可以与多个人发生交互
对人,物的边界框进行ROI pooling,后面再接一个residual,和GAP来提取人,物体的特征,对整个输入图像的特征图使用Residual和GAP 来提取上下文的特征,然后将这三个特征连接起来,并通过一个全连接层.
对于给出的人-物边界框,将其进行配对,产生双通道二值特征图,在人或物的边界框处为1,其余地方为0,然后对其使用两个卷积层,然后进行GAP,再接一个全连接层,
得出的人物对的空间结构也可以用于辅助分类预测概率分数:
将得到的视觉特征向量和空间注意力向量相乘作为使用空间注意力优化的视觉特征,
优化之后的视觉特征可以用人物对的交互建议分数(用于衡量人物对的交互性),以及交互动作类别的概率分数:
图卷积网络提取对结点之间的结构关系进行建模的特征,使用边来对结点遍历和更新,在本方法中,将人与物看作结点,他们之间的联系看作边,将每个人与其他物体连接起来和 将每个物体与其他人联系起来,
将人与物之间的邻接值定义为人物对之间的交互建议分数(用于衡量人物对的交互性):
因此可以得到图卷积分支分类预测概率分数为:
该网络产生的最终的交互分数为(将上面得到的四个分数相乘,分别是空间注意力分数,交互建议分数,交互类别分数,图卷积预测分数):
我觉得本文的做的比较好的一个地方是,结合了空间注意力,来优化视觉特征,并且使用图卷积来提取人与物之间的结构特征,总的来说利用了视觉特征,人与物的空间特征,与结构之间的关系,但是在提取各种特征时,是对所有的人物对进行判断,我的想法是这方面是否可以再继续优化?有很多不存在交互性的人物对也会被反复去提取特征,是否会有一些进步?