《DSSD : Deconvolutional Single Shot Detector》[1] 2017年发表在CVPR上。
前身是《SSD: Single Shot MultiBox Detector》[2] 推荐博客:论文阅读:SSD: Single Shot MultiBox Detector
两者都是物体检测领域的文章,DSSD对小目标检测效果较SSD有所提升。
方法
在SSD中,作者采用VGG作为base network,但也提到其他网络应该也可以产生很好的效果。因为Residual-101[3]在很多文章中取得了很好的效果,所以在DSSD中,第一个改进就是把base network改成了Residual-101,提高特征提取能力。
换完base network之后,作者通过实验发现,准确率从77.5%降至了76.4%,说明只换网络并不能够提高准确率。受[4]启发,如果能够提高每一个子网络的准确率,那整个网络的准确率也会得到提升。所以作者在每次预测之前(上图中红色椭圆部分)加入了一个“预测模块”(prediction module):
(a)是SSD中利用卷积层特征直接去预测类别分数(Cls)和坐标(Loc Regress)。(b)-(d)是作者提出的三种预测模块。经过实验证明,(c)能够获得更好的准确率。
本文做的第二个贡献就是添加了反卷积模块,引入了空间上下文信息,从而大大提高了检测准确率。添加了反卷积之后,整个网络形成不对称的沙漏结构,如下图所示:
蓝色块为卷积层,红色块为反卷积层。红色块做反卷积操作,然后与同大小的卷积层融合,之后再进行物体检测。其中的“反卷积模块”(Deconvolution module):
其中Eltw Product是元素点积操作。作者也尝试了元素求和,但是点积操作的准确率稍高一些。
实验
第一部分实验使用PASCAL VOC2007和VOC 2012的训练测试集训练网络,用2007的测试集进行测试。将训练好的SSD网络作为DSSD的预训练网络,第一种情况:保持卷积部分不变,只训练额外的反卷积部分。第二种情况:重新训练整个网络结构。实验发现,训练整个网络结构得到的效果不及两部分单独训练,所以后面只进行第一种情况的实验。实验结果如下:
分析了一下mAP:
20个类中,bottle的训练集中大多包含遮挡情况,而且聚会场景较多,背景杂乱;plant的实例较小,和盆有依赖关系,而且和背景颜色十分相似的完全鉴别不出来。这些原因导致这两类的准确率偏低。
第二部分实验中训练集增加了VOC 2007的测试集,采用VOC 2012的测试集作为测试。实验结果如下:
和第一部分实验结果类似,不再具体分析。
第三部分实验采用COCO数据集。主要分析了不同的IoU以及对不同尺度的目标等的检测情况,实验结果发现对于小物体检测效果很好,分析如下:
第四部分实验主要比较了不同方法的运行时间,以及BN过程对时间的影响。
实验发现,移去BN过程之后,FPS变大,即每秒能处理更多张的图像。除此之外,base network换为Residual-101之后,SSD和DSSD都变慢了,主要原因有三个:1.Residual-101相比VGG,有更多的卷积层;2.增加的反卷积层带来的额外的运算;3.DSSD中增加了比例为1.6的default boxes,这也增加了预测时间。总的来说,提出的DSSD模型在保持了与其他检测器相似速度的同时,达到了更好的检测准确率。
最后,展示一下DSSD的检测例子:
参考paper:
[1]Fu C Y, Liu W,Ranga A, etal. DSSD :Deconvolutional Single Shot Detector[J]. 2017.
[2]W. Liu, D.Anguelov, D.Erhan, S.Christian, S. Reed, C.-Y. Fu, and A. C. Berg. SSD: single shotmultiboxdetector. In ECCV, 2016.
[3]K. He, X. Zhang, S. Ren, and J.Sun. Deep residual learning for image recognition. In CVPR, 2016.
[4]Z.Cai, Q. Fan, R. S.Feris, and N.Vasconcelos. Aunifiedmultiscale deepconvolutional neuralnetwork for fast object detection. In ECCV, 2016.