【目标检测】Scale-Aware Trident Networks for Object Detection 阅读笔记

Scale-Aware Trident Networks for Object Detection

1.Introduce

该文章通过提出TridentNet,来生成具有统一表征能力的特定尺度特征图,以此解决目标检测中尺度多变问题。其中,作者建立了一个并行多分支结构,它们共享参数,但感受野不同。作者采用Resnet-101作为骨架网络。

2.Relate work

【目标检测】Scale-Aware Trident Networks for Object Detection 阅读笔记_第1张图片

其中目前目标检测的四种方法如下图所示,分别为:

【目标检测】Scale-Aware Trident Networks for Object Detection 阅读笔记_第2张图片

对应下来是:

  1. 图像金字塔 ,利用不同尺度的图像生成不同尺度的特征图,再去分别做预测。
  2. SPPnet, Fast RCNN,Faster RCNN等仅采用网络的最后一层的特征进行预测
  3. 类SSD(one-shot detector)的使用多尺度特征融合的方式,使用不同层抽取不同尺度特征做预测。
  4. 构建高级语义的特征金字塔FPN,输入一张图片,采用全卷积在多层次输出不同比例的特征图。因为高层特征图的分辨率较低,则融合低层高分辨率信息与高层特征图,在每个融合后的特征层上进行单独预测。

d)FPN的结构样式  (应当明确一点,低层高分辨率的特征对检测小目标很重要

【目标检测】Scale-Aware Trident Networks for Object Detection 阅读笔记_第3张图片

PS:横向连接则是将上采样的结果和自底向上生成的相同大小的feature map进行融合(merge)。在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积,目的是消除上采样的混叠效应。

 

这种自上而下的路径和横向连接的方法在卷积神经网络上是很通用的,在Faster-RCNN中加入FPN。例图:Faster R-CNN + Resnet-101

【目标检测】Scale-Aware Trident Networks for Object Detection 阅读笔记_第4张图片

Faster R-CNN利用Conv1~Conv4-x的91层为共享卷积层,然后从Conv4-x的输出开始分叉,一路经过RPN网络进行区域选择,另一路直接连一个ROI Pooling层,把RPN的结果输入ROI Pooling层,映射成7*7的特征。然后经过Conv5-x的计算,这里Conv5-x起到原来全连接层(fc)的作用,最后经过分类器和边框回归得到最终的结果。

 

Differ from prior work

作者认为检测器的性能无非与网络骨架的三个属性有关,网络深度,下采样比例,感受野。作者发现大的感受野对大目标检测效果很好,小目标检测则对应小的感受野。出发点就变成了将这种不同大小的感受野结合起来,同时使用大小不一的目标检测?(解决多尺度问题,感觉和RFBnet方法类似。。。)

TridentNet的特点是:

在原始的backbone上做了三点变化:第一点是构造了不同receptive field的parallel multi-branch,第二点是对于trident block中每一个branch的weight是share的。第三点是对于每个branch,训练和测试都只负责一定尺度范围内的样本,也就是所谓的scale-aware

【目标检测】Scale-Aware Trident Networks for Object Detection 阅读笔记_第5张图片

 

 

参考:https://www.cnblogs.com/fangpengchengbupter/p/7681683.html

https://zhuanlan.zhihu.com/p/54334986

你可能感兴趣的:(目标检测)