MSRA jifeng dai
在目标检测领域,model object之间的关系能够提高检测的准确度,但是这种方法在基于深度学习的模型中还没有很好的work。当下主流的目标检测的方法还是对各个物体进行单独的检测,本文提出了一种object relation module,通过引入不同物体之间的外观和集合关系做interaction,实现对物体之间relation的建模。relation module参数不多,in-place,可以用来提高目标检测的性能以及实现duplicate removal(通过可以end-to-end学习的module替换nms),实现完全的end-to-end目标检测器。
作者的relation module和google的一篇做机器翻译的论文“attention is all your need”思想类似。模块的的应用可以增强fc输出的特征以及做duplicate removal,如下图所示:
这里的relation module是in-place的,也就是说,比如在instance recognition里面,输入的是300个object proposal的特征,经过relation module之后,输出的还是300个对应object proposal的特征,只不过这些特征都融合了其他object proposal的信息。
具体的,假设一个object proposal用他的几何特征 fG (4维的bounding box)以及外观特征 fA (典型的1024维)表示。对于给定的一组object {(fnA,fnG)}Nn=1 (比如RPN输出的300个object proposal),对于第n个object, 它收集得到的relation feature可以表示为
其中m=1:N,相当于就是其他所有的object的特征,通过一个矩阵变化之后的加权平均。这个矩阵是学习得到的。下面具体讲不同object之间的权重是怎么得到的。
权重 wmn 的表达式为:
分母是对分子的归一化。第m个object对第n个object产生影响的权重是由appearance和geometry共同决定的。
appearance的权重表示为:
式表示分别将下标为m和下标为n的object映射到低维空间(实际操作是降维了),然后通过向量的内积来衡量两个object外观特征的相似性。分母表示降维之后的维度(典型的64维)。
geometry的权重表示为:
其中 ξG 函数用来将第m个object和第n个object之间的几何特征映射到高维空间(典型的64维),方法是首先计算m和n之间的相对位姿,
上述得到的相对位姿就是平移和尺度不变的了。然后将4维的相对位姿映射到64维的向量,和 WG 做内积之后,通过relu,relu的存在表明特征的融合只对具有特征几何结构的object之间进行。
上面的 fR(n) 表示第n个object收集到的一种relation feature,实际上,在作者的论文里,一个object会收集 Nr 种(典型的16种)relation feature,然后将这 Nr 种feature concatenate在一起,和原本第n个object的feature相加,得到增强之后的特征。如下式:
对于目标检测,原来是用第n个object proposal的特征 fnA 输入classifier,现在是用融合了relation feature的特征输出classifier。为了保证concate之后的relation feature能够和原来的 fnA 维度一致,矩阵 WV 对 fmA 起到了降维的作用。
下图表示上面的操作过程
原本的RCNN系列的目标检测流程如下所示,从ROI pooling得到的特征经过两个fc之后,进行分类和坐标回归。
引入relation module(RM)之后,instance recognition的流程为:
其中r1和r2分别表示在第一个fc和第二个fc之后连接的RM的数目
整体的instance recognition的示意图如下图(a)所示:
作者把duplicate removal归结成一个二分类问题,即对于每一个gt box,只有一个detected box是被分成correct,其他的都是分成duplicate。作者的duplicate removal network是接在classifier的输出后面。该模块的输入包括object proposal的score vector(属于各个类别的概率), bbox,以及proposal的特征(典型的1024维)。
对于某一个object proposal的某一个类别,假设属于这个类别的概率为 scoren ,首先经过一个rank embed模块,即拿出其他object proposal属于该类别的score,进行排序,得到第n个object proposal在排序中的下标(rank),作者特别说明了,使用rank值而不是直接score的值非常重要。然后将rank值映射到128维向量,同时将该proposal的特征也映射到128维,将两种128维的特征相加之后作为新的appearance feature,然后和bbox作为relation module的输入,得到新的128维的输出,和W_s做内积之后通过sigmoid得到s_1,最终的correct的概率s=s_0 * s_1。整体流程如上图(b)所示
所有的实验都是在COCO上做的。
5.1 Ablation study on relation module structure and parameter
为了验证relation module里面几何特征的重要性,作者设计了两个对比实验
1)none表示直接设置几何特征的权重是1;
2)unary表示直接将相对位姿映射到appearance feature一样的维度,然后和appearance feature相加作为新的appearance feature。
5.2 relation module improve the instance recognition performance
5.3 relation module for duplicate removal
从上图可以看到,不使用rank feature或者直接使用score的值都会使得mAP相比baseline降低很多…作者也没有解释为什么会出现这种现象。
5.4 What is learnt in relation module
作者在论文的最后说,relation module里面到底学习什么不在本文的讨论范围,为了给一个直观的感受,作者将instance recognition里面接在第一个fc后面的relation module学习得到的w拿出来,如上图所示,蓝色框表示reference box,左边的图表示重叠度高的框对蓝色框的贡献都很高,右边表示对手套特征贡献高的包括了人。