论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation

一篇比较新的文章,看简介就吸引了我:其中提到的核心思想与唐师兄说的非常相似。描述method的关键词也如此。这篇文章应该是介绍刷榜工作的说明文,具体实现细节比较多,也有很多事用的别人的方法再加上调参,对于主要的网络结构没有很详细的介绍(文中说会在一篇独立的文章中再说明)。思想主要是目标检测中classification和regression的解耦,而我本次着重看一下这个做法。
后来发现:论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第1张图片
这篇文章已经给出了。。。之前没有看到这篇。

motivation

和IOU-Net一样,问题在于:classification head 和regression head共享一样的parameters(这里可能是想说共享一样的features而不是说可训练的参数共享)。IOU-Net发现"feature which generates a good classification score
always predicts a coarse bounding box",于是采用另一个head预测IOU作为localization score整合进最终的classification score。作者称只是一种妥协,因为misalignment在每个空间点仍然存在,这种做法仅仅提升了紧凑bbox的confidence score而已(是一种后处理)。同时拿了Double-Head R-CNN举例说,经过相同proposal之后的ROI pooling的流入两个分支的feature导致了冲突依然存在。
既然作者强调方法与二者的优越性,在此先列出以作比较。
IOU-Net
论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第2张图片
论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第3张图片
在这里插入图片描述
Double-Head R-CNN:(csdn博客)
motivation:COCO2018检测挑战冠军获得者发现,实例分割任务中将bbox回归与分割在同一个卷积head上学习,效果比将bbox回归与分类在同一个fc head上学习好。
论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第4张图片

method

根据《revisiting…》,作者称其为task-aware spatial disentanglement (TSD)。
论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第5张图片
中间ROIPooling后面接的应该是deformable的结构,下面的字表述可能有些问题。这里可以参考一下知乎这篇文章
除此之外,主要看下新加的两个分支。
首先是DHPooling
对应于上图,C和R是
论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第6张图片
分类和回归的两个DHPooling:
论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第7张图片

用简单的话概括一下就是,用deformable roi pooling来解决分类任务,同时用一个coarse的deformable来解决回归任务。
但是在这里有两点不能理解的地方:
1. p 0 p_{0} p0在这里到底起什么作用?
2.接入ROI Pooling的proposal已经是偏置过的anchor,那么为什么又要算一次粗糙的偏置?也没有级联那种先易后难的处理在里面,不能理解。
后续更新: 根据《revisiting…》 p 0 p_{0} p0应该是笔误,完全没有的。公式如下:
论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第8张图片

接着是CML(Controllable Margin Loss)。
根据《revisiting…》,作者称其为Progressive constraint(PC)。
论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第9张图片
对于回归,这个公式更加清楚一点:
在这里插入图片描述
似乎目的在于让获得了"refined" feature的分类器和回归器更加自信。
整体loss在《revisiting…》中补充如下:
论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第10张图片

experiments

实验部分给出的表格很少,在这一问题下主要结果:
论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第11张图片
来自《revisiting…》后续补充
关于参数量
论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第12张图片
PC的有效性:
论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第13张图片
deformable 的方式(prop.w以proposal为单位,point.w以点为单位):
论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第14张图片
最终结果:
论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation_第15张图片

总结

这篇文章更像是一篇临时占坑的。这次主要看看这样一个解耦的思想。在这里他的确做到了他强调的"用于分类和回归的feature不一样"。通过在ROI Pooling处用了两种不同层级的deformable实现解耦。

你可能感兴趣的:(论文笔记:1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation)