《Deformable part-based fully convolutional network for object detection》笔记

Introduction

该论文参照传统目标检测方法DPM,在基于R-FCN的基础上,给网络添加了检测目标的部分形变的功能。把目标分成 k × k k \times k k×k个网格部分,考虑到目标的各个部分在不同的场景下可能会发生形变或位置偏移,DP-FCN在R-FCN的结构上添加检测目标部分偏移量的额外结构。在网络中加入额外的目标形状位置信息,提高网络的目标检测的精度。

Deformable part-based fully convolutional Networks

DP-FCN分成3个部分,一个全卷积网络(a fully convolutional network),用来提取特征;一个可变形的基于部分的RoI池化层(a deformable part-based RoI pooling layer),在R-FCN的基础上,根据预测出来的偏移量对齐目标RoI的各个部分;一个变形感知的本地化模块(a deformation-aware localization module),对最后的预测位置进行微调。
《Deformable part-based fully convolutional network for object detection》笔记_第1张图片

Fully convolutional network

全卷积网络就不多说了:)。

Deformable part-based RoI pooling layer

《Deformable part-based fully convolutional network for object detection》笔记_第2张图片
在全卷积网络的最后一层feature map,每个channel(Detection map)对应一个类别的RoI上一个位置,表示该目标对应部分的信息。从detection map的对应位置上进行average pooling作为RoI对应位置的值。考虑目标会发生形变,目标的这一部分可能偏移了初始位置,因此,从detection map中寻找average pooling后响应值最大的部分。为了保持目标的整体性,目标的这一部分不能有太大的位置,因此我们引入形变代价(deformation cost),部分的偏移位置离初始位置越远,形变代价越大。综合detection map 和 deformation cost,利用下面的式子求出部分的偏移量
pooled
p c R ( i , j ) p_c^R(i, j) pcR(i,j)表示c类的RoI的i和j位置上值。 z i , j , c z_{i,j,c} zi,j,c表示detection map。减的那部分表示deformation cost,cost是偏移量的平方和, λ d e f \lambda^{def} λdef表示形变的正则化参数。取使得 p c R ( i , j ) p_c^R(i, j) pcR(i,j)响应最大的偏移量 d x d_x dx d y d_y dy,每个RoI(C+1个channels,每个channel表示一个类别)对应的偏移量大小为 2 k 2 C 2k^2C 2k2C

可变性的RoI池化效果如上图的右边部分所示。RoI的池化区域由原来的网格区域变成了任意区域。

Deformation-aware localization module

利用偏移量来提高目标的bbox的预测精度。
《Deformable part-based fully convolutional network for object detection》笔记_第3张图片

上图的上分支输出的是R-FCN的bbox的预测值。下分支是deformation-aware localization module,对于每个类别,把偏移量传入一个2层的神经网络,得到4个微调值,预测的bbox的4个预测值和4个微调值对应位置相乘,得到最终的bbox预测值。

Experiment

DP-FCN的bbxo预测效果更好,bbox与目标更加匹配。
《Deformable part-based fully convolutional network for object detection》笔记_第4张图片

DP-FCN关注目标的便于区分类别的部分
《Deformable part-based fully convolutional network for object detection》笔记_第5张图片

你可能感兴趣的:(笔记)