论文复现——CE-FPN: Enhancing Channel Information for Object Detection

最近想自己对FPN结构进行一些改进,读了不少有关FPN的论文,有些论文开源了,但是有些最新的论文没有开源,后面打算把最近复现的论文都总结一下,发个论文复现系列的文章。
有些论文具体实现细节没有说清楚,所以我是按照自己的理解来复现的,如果有不同的方法欢迎在评论区讨论。

CEFPN论文链接:https://arxiv.org/abs/2103.10643
CEFPN复现代码:https://github.com/RooKichenn/CEFPN

文章目录

  • 一、CEFPN结构
    • 1.SSF模块
    • 2.SCE模块
    • 3.CAG模块
    • 4.使用线性插值和maxpool得到特征图I
  • 二、训练策略
  • 三、复现代码

一、CEFPN结构

话不多说,先上图:
论文复现——CE-FPN: Enhancing Channel Information for Object Detection_第1张图片
CEFPN中用了不少前辈们的思想,整体框架借鉴了LibraRCNN(https://arxiv.org/abs/1904.02701v1),我认为最大创新就是CEFPN的网络结构,其他模块都是借鉴前辈们的思想,没什么特别大的创新,但是提供了一个改进的思路:去掉F5和P5层,融合P4,P3,P2。下面就具体分析一下CEFPN的结构。

1.SSF模块

SSF(Sub-pixel Skip Fusion)是借鉴了CVPR2016年一篇关于超分辨率图像论文中提出的亚像素卷积思想,具体是实现细节我在这里就不赘述了,对这篇论文不了解的话可以先去读一下:https://arxiv.org/abs/1609.05158,在CEFPN中,作者采用了残差融合亚像素卷积的方法对C5和C4进行上采样到C4和C3大小,而没有采用传统的线性插值来进行上采样,同时将C4和C3进行1x1的卷积操作,并将这个结果跟亚像素卷积后的进行特征融合,就得到了F4和F3。
论文复现——CE-FPN: Enhancing Channel Information for Object Detection_第2张图片

2.SCE模块

论文复现——CE-FPN: Enhancing Channel Information for Object Detection_第3张图片

SCE(Sub-pixel Context Enhancement),这个模块的思想也比较简单:将Input Feature分别进行三种处理,最后得到一个通道数为原来的1/8,长宽为原来的2倍的特征图。在论文中,将Input Feature的维度描述为 2h x 2w x 8C,我认为这样描述的原因是第二个分支中,涉及到了长宽减半的操作,也正是在这里,有一个小问题:当Input Feature长宽为 25x25 时,在长宽减半后,长宽为13x13,作者进行了四倍的上采样,得到的特征图为52x52,与第一个分支得到的特征图50x50大小不匹配,而文中作者并没有提到这种情况,所以我在第二个分支输出特征图前又加了一个线性插值的操作,将其缩放到和第一个分支输出的特征图相同大小(如果有复现过的小伙伴可以在评论区说一下你的解决方法,我复现出来的效果并没有作者说的好)。经过SCE模块后得到的特征图和P4,P3,P2进行特征融合,得到特征图I。

3.CAG模块

CAG
论文复现——CE-FPN: Enhancing Channel Information for Object Detection_第4张图片
CAM
论文复现——CE-FPN: Enhancing Channel Information for Object Detection_第5张图片

CAG(Channel Attention Guided)模块借鉴了CBAM中通道注意力机制的思想,与CAM不同的是,在CAG中去掉了一个参数共享的全链接层,直接进行了特征融合。

4.使用线性插值和maxpool得到特征图I

论文复现——CE-FPN: Enhancing Channel Information for Object Detection_第6张图片

在得到特征图I的这个部分,跟LibraRCNN中FPN特征特征融合是一模一样的,不了解的可以去细看LibraRCNN论文,在这里就简单说一下作者是怎么做的:将经过SCE模块得到的P5,以及P4,P3,P2进行线性插值和maxpool操作,得到特征图I(I的size跟P4是一样的),再除以4(I = I / 4),这里的4代表融合了几个特征层;之后再经过CAG模块得到一个权重α,再通过线性插值和maxpool得到R5, R4, R3, R2,最后将Ri(i=2,3,4,5)乘以权重α,就得到了最后的预测特征图。

二、训练策略

以ResNet50为例,作者再COCO数据集上训练了12轮,使用了4块16G显存的GPU,每块GPU上2张图片,初始学习率为0.01,并且在第8轮和第11轮下降0.1倍。这里说一下我复现的结果,我只跑了ResNet50,用学校的服务器,四块40G的A100,跟作者参数设置相同,但是map比作者低了接近两个百分点。

三、复现代码

代码已同步到GitHub,欢迎star:https://github.com/RooKichenn/CEFPN

你可能感兴趣的:(论文复现,计算机视觉,人工智能,深度学习,神经网络)