多尺度特征融合的目标检测算法-论文解读

1.论文声称的创新点

  论文中的创新点主要体现在网络结构的创新上,作者提出了一种基于SSD多尺度特征融合(Multi-scale Feature Fusion Single Shot Detector,MFF-SSD)的目标检测模型。将高层特征与低层特征进行融合,并提出了融合模块,实现不同尺度的特征提取
  高层特征图对目标的抽象程度更深,包含充分的全局信息,具有较大的感受野和较强的上下文语义信息表征能力,因此对目标位置的判定更加准确;而低层特征图的空间分辨率要高于高层特征图,能够更加准确地识别出更多的边缘、轮廓和纹理等细节信息,对目标类别做出准确判定,MFF-SSD模型从不同的卷积层来提取特征用于目标检测。

2.实现方法

  论文先描述了SSD模型,然后在SSD模型的基础上提出了MFF-SSD目标检测模型,最后又对融合模块进行了讲解。

2.1 SSD模型

  SSD模型是经典的一阶段检测模型,其主要思想是均匀的在各个层的特征图上进行采样,抽样时可以采用不同的尺度和长宽比,然后直接用CNN提取特征进行分类和回归,所以其优势时速度快,实时性好。但是由于其正负样本(算法会事先约定一个iou的阈值,检测框与lable的iou大于该阈值为正样本,小于该阈值为负样本)不均衡,导致模型准确率稍低。SSD基础的网络结构是VGG16,同时加入了YOLO的回归思想和Faster-RCNN的先验框机制。
SSD原论文
多尺度特征融合的目标检测算法-论文解读_第1张图片

图1 SSD网络结构

  SSD300网络结构的输入图像大小为 300 × 300 300\times 300 300×300,前面一部分使用了VGG16的卷积层,将VGG16的两个全连接层变为两个卷积层(conv6和conv7),后面又进行了几次卷积生成了conv8_2,conv9_2,conv10_2以及conv11_2。由图可知,SSD将生成的conv4_3,conv7,conv8_2,conv9_2,conv10_2以及conv11_2这六个特征图送到检测分类层做回归。

2.2 MFF-SSD模型

  由于SSD网络生成的预测框质量较低,导致小尺度目标或被遮挡的目标定位失败,影响检测效果,所以针对SSD算法在检测小目标存在检测视野范围小、检测图像长宽比单一、检测精度较低、实时性较差等问题,提出了一种基于SSD多尺度特征融合的模型(MFF-SSD)。多尺度特征融合的目标检测算法-论文解读_第2张图片

图2 MFF-SSD网络结构

  MFF-SSD模型在原SSD网络结构的基础上对SSD的后4层进行反卷积,得到4个反卷积模块(conv12_2,conv13_2,conv14_2以及conv15_2),利用高层网络和低层网络的优势,将高层网络和低层网络进行多尺度融合,然后将特征融合模块与SSD网络的7~11层同时输入到检测模块进行检测。共提取大小分别是(150,150)、(75,75)、(38,38)、(19,19)、(10,10)、(5,5)、(3,3)、(1,1)的8个特征图. 该模型实现了来自不同卷积层、不同尺度、不同特征的多元信息的分类检测与位置回归。

2.3 融合模块

  MFF-SSD模型一有4个融合模块,它们采用的都是跳跃连接的方式,以融合模块1为例进行说明。
多尺度特征融合的目标检测算法-论文解读_第3张图片

图3 融合模块

  首先将高层特征图conv15_2进行上采样,使用卷积核为 2 × 2 2\times 2 2×2,通道数为256进行反卷积,接着使用 3 × 3 3\times 3 3×3的卷积核进行卷积,再经过激活函数ReLu输出到BN层,采用L2正则化对数据进行批量归一化,再输入到卷积和为 3 × 3 3\times 3 3×3,通道数为256再进行一次反卷积,接着再经过卷积核大小为 3 × 3 3\times 3 3×3的卷积,最后经过BN层输出。低层特征图conv2_2首先经过一次卷积核大小为 3 × 3 3\times 3 3×3的卷积,再输入到ReLu,最后经BN层归一化输出。将高层特征图和低层特征图的输出进行求和操作(Eltw Sum),然后输入到ReLu层,最后再经过一次卷积和ReLu后就实现了融合。

3. 提升效果(实验结果分析)

论文数据集采用的是Wider Face人脸检测数据集,输入图像尺寸大小为 300 × 300 300\times 300 300×300,参数设置为:迭代次数5000次,学习率为0.0001,动量因子为0.9,权值衰减参数为0.0005,IOU为0.6,具体实验结果见下图。
多尺度特征融合的目标检测算法-论文解读_第4张图片

图4 各种检测算法结果对比

由上述实验结果可自己MFF-SSD模型的mAP(目标检测的平均精度)达到了78.9%FPS(每秒传输帧数,目标检测过程中衡量处理速度的指标)达到了57FPS,与其他算法对比,MFF-SSD算法检测分类更准确,定位更精准,总体性能较好。
SSD网络结构详解

你可能感兴趣的:(算法,深度学习,pytorch,目标检测)