Precise Detection in Densely Packed Scenes论文详解

《Precise Detection in Densely Packed Scenes》是发表在2019cvpr上的文章并且有源码。

代码地址：https://github.com/eg4000/SKU110K_CVPR19

这篇文章的目的是对于一些人为的密集场景的物体进行检测定位。如下图所示，在一些商店的货架上待售商品摆放密集。使用一些SOTA的方法如RetinaNet，会出现检测框重叠的问题，如图中a所示。使用文章方法可以减少这种问题，如图中b所示。其中c和d是对a和b的局部区域放大的结果。

1.png

文章方法分为四步，图片输入，网络提取特征，EM-Merger推断，NMS，不完全对应但基本可以用下图表示。

2.png

一、网络结构

如上图中的b所示，文章采用resnet50作为主干网络，网络采用FPN框架，网络有三个输出分支都采用了RPN结果，其中有两个和RetinaNet一样。

一个是detection head，是用来回归定位物体的，输出为(x,y,h,w)坐标，用来表示网络检测的物体坐标。
第二个是classification，是用来说明是什么物体的，输出的值取值在0-1之间。
第三个是新提出来的，取名为soft-iou layer。

1.1 Soft-IoU Layer

先说明一下为什么要提出这个网络层。在一般的物体检测算法中，检测出来的框要经过一个叫NMS的后处理，这个后处理是根据预测框的类别、分数和框的IOU来计算的。预测框的分数一般是对于框内物体进行预测的，它并不能代表预测框和真实框之间的iou，所以可能存在预测框分数很高，但是该预测框并没有很好的定位出物体的情况。这里提出Soft-IoU就是为了估计框的定位是否准确，该层的输出就是预测框与真实框的IoU值。

对于IoU的计算，假设预测出的是N个检测框，每个预测框的IoU计算如下

其中表示离预测框最近的标定框（文章写的是,我觉得不合理，这里如果有问题，欢迎指出）。

1.2 loss函数

先说一下新提出的Soft-IoU Layer的loss函数，采用的是交叉熵，如下所示：

其中n表示每个batch的标定框数，表示预测框与真实框的iou，表示预测的iou分数，说白了这一层就是一个简单的二分类。

对于整个网络的loss，如下式所示：

已经介绍过了，其他两个损失函数同FasterRCNN。

二、EM-Merger单元（推断过程使用）

对于网络的输出，有N个预测框的位置、置信度、预测的iou分数。为了处理密集场景，文章提出EM-Merger单元来过滤重叠的预测框。

2.1 Detections as Gaussians

名字取得有点迷，这部分说白了就是将检测出的框看出是高斯分布，一个框对应一个高斯分布，对于N个预测框使用下式表示：

其，是个二维的。，说明高斯分布的均值是使用预测框的中心点来表示的。对角协方差,表示预测框的长和框。（这里代码中有些值不同，不影响理解）

对于所有预测的框的分布就可以使用混合高斯(MoG)表示，如下式所示

其中，。

2.2 Selecting predictions: formal definition

这步是在2.1的基础上，过滤一部分的预测框，假设这步输入的预测框有N个，输出的有K个，其中K<

并且希望这K个高斯分布的组合能够和使用上面N个高斯分布组合出的分布很相似，K个高斯分布的组合如下所示

策略f和g的相似度，我们使用KL-divergence，如下式所示

2.3 An EM-approach for selecting detections

这步是为了解决如何从N个高斯分布中找到K个近似的高斯分布表示，从标题可以看出，这步采用的是基于EM的算法。

EM算法分为两步，一个叫E-step，另一个叫M-step。下面来详细讲解一下。

在这里E-step的任务是根据和g的分布对进行聚类，表达式如下所示

上式想表达的就是将通过KL-divergence将其分到K个类中。

M-step是通过新的聚类样本更新聚类参数，更新方式如下

文章说明，当迭代的误差小于1e-10或者达到一定的迭代次数时，认为迭代收敛。

2.4 Gaussians as detections

通过2.3中的操作，一旦EM算法收敛，我们可以得到K个估计出的高斯分布。其中K的取值为，符号文章没有解释。看完代码发现解释起来相对不是很方便。

先讲一下N个高斯分布怎么来的吧，对于一个检测图像，预测出了x个框，将所有框缩小一定的比例（比如代码中的0.3）然后将x个框用高斯分布表示，这样就能在图像上画出一个个的二维高斯分布图，将对画完的高斯分布图求轮廓，每个轮廓包含的预测框就定为N个。上面K的求解，就是在这个轮廓中N个预测框的K个估计框分布，I为当前轮廓的区域面积，指的是N个预测框缩小0.3倍后面积取中位数的值。

得到的K个高斯分布（也可以理解为K）并不是最终的检测结果，还要经过一些过滤规则，比如预测框中心点在K个高斯分布内的内的框，分数（这里的分数值得是）达到一定值,NMS等等，这些具体细节文章没有写出来，可以看代码。

经过一系列操作后等到的最终结果就是最终的预测框了，这里一系列操作包括EM，以及EM后的过滤操作，这些都可以理解为过滤很多不必要的冗余检测框。

这里原理基本讲完了，后处理还是蛮复杂的，具体可以看看代码https://github.com/liuheng92/SKU110K_CVPR19
我原代码没有改动，加了一些注释