【论文阅读纪录】M2Det(目标检测)

前言:

{

    之前github上搜目标检测的模型,搜到了几个效果不错的模型,这次要介绍的就是其中之一:M2Det[1],[2]。

    这次的博客就用来做M2Det论文的阅读纪录。

}

 

正文:

{

    在文章的一开始,作者介绍了目标检测的主要问题:目标的尺度不定。解决这个问题的方法有两种:

  1. 使用图像金字塔,即对原图进行缩放以使用不同尺度的图像。由于需要反复计算特征图,所以这种方法非常消耗算力;
  2. 使用特征金字塔,即对特征图进行缩放。图1展示了4种特征金字塔。

 

    【论文阅读纪录】M2Det(目标检测)_第1张图片

    作者指出,这几种特征金字塔也有缺点:

  1. 特征图对于目标检测来说没有足够的代表性(原文是not representative enough,应该是信息量不足的意思)。这个倒是可以理解,因为大多目标检测模型的特征提取层要么就是在图像识别任务上预训练过,要么就是为图像识别任务设计的。
  2. 每层特征图主要或只包含单层信息。如上图所示,特征提取部分的层大多都是串行连接。而特征提取网络中低层和高层的信息差别很大,低层主要表征外形简单的目标,高层则主要表征外形复杂的目标。

 

    之后,作者提出了一种新模型,见图2。

    【论文阅读纪录】M2Det(目标检测)_第2张图片

    在上图中,Backbone network是骨干网络(特征提取网络,例如VGG)。FMM1(应该是FMMv1)和FMMv2是特征融合模块,TUM是薄化U型模块(类似编解码器的结构),其结构见图4。SFAM是逐尺度特征聚合模块,其结构见图3。可以看出,整个MLFPN(多层特征金字塔网络)是本论文新颖的部分。

    【论文阅读纪录】M2Det(目标检测)_第3张图片

    【论文阅读纪录】M2Det(目标检测)_第4张图片

    关于SFAM之前的部分和prediction layers,我在github上找到了此模型的tensorflow实现[3]。如果我理解不错的话,SFAM之前的部分其实就是TUM的后部分,只不过作者没有用箭头表示,而是由在后面画了一遍。prediction layers部分会对每一个尺度生成一个分类预测和一个回归预测,最后输出所有预测的总和。

 

    表1是本模型与其他模型在COCO数据集上的对比结果。

【论文阅读纪录】M2Det(目标检测)_第5张图片

    可以看到,除了两阶段模型SNIP之外,本模型的结果最好。值得一提的是,SNIP使用的是DPN-98,其比VGG-16复杂不少,而且使用更复杂的特征提取网络似乎会得到更好的结果,所以本论文模型的结果应该可以达到最佳。

}

 

结语:

{

    上面有很多都是个人理解,如有不对欢迎指出。

    参考资料:

    [1] https://github.com/qijiezhao/M2Det

    [2] https://qijiezhao.github.io/imgs/m2det.pdf

    [3] https://github.com/tadax/m2det

}

 

你可能感兴趣的:(神经网络与机器学习,论文阅读记录)