论文阅读:Grid R-CNN

Grid R-CNN

文章

  CornerNet是one-stage的基于关键点的detector,那么可以不可以在two-stage上用上类似的方法呢?Grid R-CNN就是这样的方法。和普通的two-stage的第二步对RoI进行回归不一样,该方法直接利用RoI feature对物体的Grid(多个关键点)进行proposal的位置修正

论文阅读:Grid R-CNN_第1张图片

  和CornerNet一样,本文也发现了很多关键点(比如CornerNet中的左上和右下角点)所在的位置缺少local visual evidence的问题,所以本文设计了一种multi-point的监督方式,可以减小某些点定位不精确带来的影响。比如上图(b)中3x3的grid设计,右上角的不精确的y轴坐标可以由上中点校准,其实这和corner pooling的想法还是很相似的。

  和CornerNet不一样的地方在于,CornerNet是一个bottom-up的方法,直接从图片得到关键点,然后对关键点进行group来确定物体的bounding box。而本文的方法是top-down的,先由第一阶段确定好每个instance的RoI,然后致力于将关键点定位得更加准确。

论文阅读:Grid R-CNN_第2张图片

  从上面的结构图看出,如果设置的Grid是NxN的,那么每个RoI的feature在经过dilated卷积和反卷积之后会输出NxN个分辨率为56x56的heatmap,每个heatmap上都会使用pixel-wise的sigmoid激活函数。和ConrnerNet一样,每个heatmap也有自己的supervision map,不过positive postion不是单独的关键点对应的pixel,而是以关键点为中心的“十字”的5个pixel。

  显然在inference的时候,需要将heatmap上的grid映射回原图才能找到物体在原图中的bounding box,公式如下:

  P_x和P_y是proposal/RoI在原图中的左上角点坐标,w_p和h_p是proposal的宽和高,w_o和h_o则是heatmap的宽和高。

  得到预测的grid point之后就可以确定bounding box的四个边界了,记作B=(x_l, y_u, x_r, y_b)。

论文阅读:Grid R-CNN_第3张图片

上式中g_j=(x_j, y_j)代表第j个grid point,E_i代表bounding box的第i条边界(1234分别对应左上右下),p_j代表该grid point的置信度。比如求左边界x_l就是将左上,左中,左下三个点的x坐标按置信度加权求和再平均。

  本文也设计了类似于corner pooling的特征融合手段,称之为grid points feature fusion

论文阅读:Grid R-CNN_第4张图片

文章规定相邻的grid point之间会有特征的交流,如上图所示。由于每个grid point都有自己的feature map,所以对于point i,只需要将所有对其有贡献的point的feature map都处理之后相加即可

F_i代表第i个point的原feature,T_ji代表一系列的卷积操作,文中是3个5x5的卷积(这意思就是按角标区分的话,对于3x3grid来说得有81组卷积)。一次这样的fusion称之为first-order fusion,在第一次的fusion的基础上再进行fusion使用新的T,称之为second-order fusion。

  RPN产生的proposal存在一个问题,就是proposal不一定能每次都将物体的bounding box围住,这就意味着有的grid point会落在proposal的外部,无法用于训练,导致监督信号的减少,这使得对训练样本的有效利用也减少了。

论文阅读:Grid R-CNN_第5张图片

比如上图白色框就是proposal,绿色框是ground truth,这使得7个grid point无法用于训练,这是对训练样本极大的浪费。所以一个很自然的想法就是扩大proposal,但这又会带来新的问题,引入了多余的背景信息。为了解决这个问题,文章提出的方法叫extended region mapping,保持RoI的特征还是从proposal提取(尽管proposal可能无法完全包围住ground truth),但是由RoI特征得到的heatmap代表的区域被扩大了2倍,如下

论文阅读:Grid R-CNN_第6张图片

这样就能使用更多的ground truth的grid point作为监督信号了。

  稍微看一下实验结果,下图是与faster r-cnn在COCO上的对比

论文阅读:Grid R-CNN_第7张图片

可以看到,Grid R-CNN依靠对grid point的预测,提高了bounding box的定位精度

你可能感兴趣的:(论文阅读:Grid R-CNN)