版权声明:转载必须经过本人同意,获得留言同意即可。
原文:https://arxiv.org/ftp/arxiv/papers/1709/1709.05054.pdf
Feature-Fused SSD: Fast Detection for Small Objects (ICGIP2017)
Guimei Cao, Xuemei Xie, Wenzhe Yang, Quan Liao, Guangming Shi, Jinjian Wu
School of Electronic Engineering, Xidian University, China
1. Motivation
小目标检测是计算机视觉中一项具有挑战性的任务,因为它的分辨率低,信息有限。为了解决这个问题,现有的大多数方法牺牲速度来提高精度。原文作者以快速检测小目标为目标,采用SSD作为基本结构,提出一种兼顾速度和准确度的方法。
2. Contribution
3. Framework
本文算法框架和SSD大致相同,不同点在于SSD的conv4_3直接用于prediction,而Feature-Fused SSD将conv4_3和conv5_3融合后再用于prediction。
大家都知道SSD使用特征金字塔是为了兼顾不同尺度目标的检测,而conv4_3作为特征金字塔的最浅层,是用来做小目标检测的。为什么要把最浅层的特征用到小目标检测上呢?因为浅层的感受野小,感受野的尺寸正好和小目标match。当然在实际工程中不一定要把conv4_3作为最浅层,而是需要先统计数据中的目标尺寸,再根据尺寸分布来设置特征金字塔的范围。
Feature-Fused SSD中,将conv4_3和conv5_3的特征融合,最后对小目标有了更好的检测效果。那为什么conv4_3与conv5_3融合后效果会更好呢?原因在于浅层的特征缺乏语义信息(Semantic information) 。而语义信息会影响检测器判断检测区域是目标 (object) 还是背景 (background)。那么将高层特征与低层特征融合,将会得到感受野适合,而又不缺乏语义信息的特征。
3.1 融合层的选择
图2列举了三张图Conv3_3到Fc6的感受野比较。原作者并没有在文中说明三张图对比的感受野中心。在图2最顶一行,Conv3_3的感受野中包含有远处的小帆船,随着网络加深,感受野范围越来越大,最后小帆船被湮没在背景中。中间一行看的是酒瓶,最后一行看的是最右侧的车手,也是相同的特点。这说明了过大的感受野会引入更多的背景噪声,以至于小目标被背景湮没。原作者选择了相邻的两层conv4_3和conv5_3融合,并实验发现这种组合mAP最高。
3.2 融合方式
原作者使用了两种融合方式,分别为Concatenation Module和Element-Sum Module,参照图3,图4。
图3和图4清晰地展示了两种融合方式。在融合前,conv5_3都会先进行一次反卷积,使得其feature map的width和height与con4_3相同。
在concatenation module中,两层通道为512的feature map先被拼接起来,组成一个通道为1024的feature map,最后通过一个1x1的卷积,将通道数降为512。而在Element-Sum module中,两层feature map直接相加。
4 EXPERIMENTAL RESULTS
原作者在pascal voc2007上做了几个实验,这里笔者只列举出总体精确度和速度的实验对比结果。Voc2007数据集包含20个类别,每个类别可能有小对象。为了更好地评价模型,原作者手动选择181幅主要包括小目标的图像作为测试数据。
从Table3可以看出,Feature-Fused SSD有一半的目标精确度是要优于SSD和DSSD的。从Table4可以看出,综合精确度和速度,Feature-Fused SSD是最好的。
Element-Sum module 和concatenation module这两种融合方式各有各的优点。从原作者的实验可以看出,concatenation module能降低遮挡的影响而Element-Sum module针对像素少和模糊的目标有更好的效果。
最后放几张效果图给读者们观摩:
5 总结
总体来说,特征融合是一种比较容易想到和实现的改进方式。笔者认为这篇文章中最大亮点就是提出了融合层的选择方式和不同的融合方式。不过原作者的测试数据有点少,最后的实验结果的说服力不是很强,也没有统计object的recall,这对小目标检测而言是个非常重要的指标。不过整体而言,这篇文章的思想值得我们在平时的工程和科研中借鉴。