FSSD: Feature Fusion Single Shot Multibox Detector论文笔记

文章目录

    • 1. Motivation
    • 2. Feature Fusion Module
    • 3. Ablation Study
    • **Conclusion**

Attention:

论文解读的博客原文发布于个人github论文合集 欢迎关注,有想法欢迎一起讨论!私信评论均可。

后面有些语法在CSDN的markdown上不支持,导致显示bug,我就懒得改了,有需求直接访问原博客查看。

创建人 github论文汇总 个人博客 知乎论文专栏
ming71 paperdaily chaser 专栏

论文发布日期:2017.12

  这篇论文行文很一般,结构组织也不是很好,比如relate work恨不得像本科毕设的绪论一样把目标检测介绍个遍,抓不住重点,没有意识到自己到底要做什么;最重要的是他在介绍relate work时没有进行评判和分析,真的只是单纯提了一下…英语表达也比较中式。说的一些观点其实都是已经反复提到见怪不怪的,所以没有什么特别的intuition(这也正常,毕竟快2017年12月的东西),提出的这个结构有点强行改进的意思,作者也没分析这个结构work的思想和道理,不过这个角度还是值得思考。

1. Motivation

  文章自称Motivation是改进特征融合做法,也值得指出了SSD和FPN的缺点(没什么新颖的,都是老调重弹就不说了),在SSD上只用较小的速度下降换取更好的效果,号称达到SOTA。
  比较有意思的是,本文提到了多尺度特征的感受野限制检测精度的问题,这么早之前就有人提出了,他之前应该可能更早就有提了。

2. Feature Fusion Module

FSSD: Feature Fusion Single Shot Multibox Detector论文笔记_第1张图片

  简单来说本文工作一张图就够了。先concatenate融合各层特征到一个较大的尺度,然后在得到的特征图上构造特征金字塔。这么看来其实很像将TDM的最底层多加了几部降采样得到特征金字塔而已。
  思考1:这篇文章的有趣之处在于,初步有一个base feature的概念。像M2Det一样通过将多尺度信息暴力融合得到基础特征,在此基础上进行多尺度的构建。只不过M2Det只用了两个层就够了,这里做实验也发现concatenate下选取的层并不是越多就能提升越大,提升是有瓶颈的,这说明了骨干网络的多尺度特征实际是有很大冗余的。
  思考2:利用base feature构造多尺度特征,是对原来的尺度信息进行了破坏和重组,然后进行深度的构建,在深度上进行多尺度预测。这就有个问题,所谓利用多尺度信息,究竟是深度信息还是原来尺度信息?

3. Ablation Study

  直接说几点结论:

FSSD: Feature Fusion Single Shot Multibox Detector论文笔记_第2张图片
  • 选用哪些层的信息合适?
      作者首先直接武断地抛弃VGG很高的层,认为信息过于抽象,其实未必准确,thunernet还直接加了个单像素的全局平均池化结果呢,STDN甚至还有1*1,至于这个抽象信息有没有用?怎样利用这个抽象信息?应该经过实验或者分析推导进行验证;
      从实验结果对比,345行来看,在concatenate下信息是冗余的,没必要加太多的特征图;这也证明base feature进行多尺度构建的可行性
  • ele-sum还是没有concatenate有效。
      这里可以思考一下concatenate的作用和机制到底是怎样的,参见笔记。

Conclusion

  本文的做法没什么可圈可点之处,几个思考和自己的理解值得尝试和再思考。

  • base feature基础上构建多尺度特征的可行性和特点
  • concatenate方法的理解

你可能感兴趣的:(papers)