本文提出的Cascade RPN旨在提高候选区的质量。通过解决传统 RPN 启发式定义锚点并将特征与锚点对齐的局限性来提高候选区的质量和检测性能。
与传统RPN相比AR提高了13.4%, 在Fast R-CNN 和 Faster R-CNN上mAP分别提高了3.1%和3.5%。
已经有许多研究试图提高 RPN 的性能 。总体趋势是执行多阶段细化,将一个阶段的输出作为下一个阶段的输入并重复直到获得准确的定位。然而,这种方法忽略了回归框与图像特征未对齐的问题,打破了目标检测所需的对齐规则。为了缓解这个问题,最近的先进方法依靠可变形卷积来执行特征空间变换,并期望学习的变换与锚几何的变化保持一致。但是,由于没有明确的监督来学习特征变换,很难确定改进是源于符合对齐规则还是源于可变形卷积的好处,从而使其难以解释。
在标准2D卷积过程中,location p on the output feature y可以表示为:
y [ p ] = Σ r ∈ R w [ r ] ⋅ x [ p + r ] y[p] = \Sigma_{r \in R} w[r] \cdot x[p+r] y[p]=Σr∈Rw[r]⋅x[p+r]
在adaptive convolution中,
y [ p ] = Σ o ∈ O w [ o ] ⋅ x [ p + o ] y[p] = \Sigma_{o \in O} w[o] \cdot x[p+o] y[p]=Σo∈Ow[o]⋅x[p+o]
o = o c t r + o s h p o = o_{ctr}+o_{shp} o=octr+oshp
(center offset and shape offset).
常规卷积连续地采样特征,空洞卷积则根据膨胀按间隔采样特征,可变形卷积则根据学习的偏移来增大采样的空间位置,这是不规则的。而论文提出的自适应卷积则能保证在anchor内进行采样,是规则的,确保特征与anchor对齐。
在stage1中,anchor是均匀分布在图片上。
在stage2-stage τ \tau τ中,根据 o = o c t r + o s h p o = o_{ctr}+o_{shp} o=octr+oshp计算出anchor的偏移程度,并通过regressor计算出回归值,在产生精调的anchor。
在最后的stage中,进行分类并且使用NMS得到最后的候选区域。
Cascade RPN can be trained in an end-to-end manner using multi-task loss:
L = λ Σ τ = 1 T α τ L r e g τ + L c l s L = \lambda \Sigma_{\tau = 1}^{T} \alpha ^{\tau} L_{reg} ^{\tau} + L_{cls} L=λΣτ=1TατLregτ+Lcls
L c l s L_{cls} Lcls 使用的是binary cross entropy loss, L r e g L_{reg} Lreg 使用的是regression loss。