文章地址
Code
在资源有限的无人驾驶飞行器(UAV)平台上,对无人机图像进行低延迟的目标检测是一项重要但具有挑战性的任务。本文研究了基于稀疏卷积优化检测头,这在平衡精度和效率方面已被证明是有效的。然而,它在面对前景尺度变化时,存在对微小对象的上下文信息整合不足以及对遮罩比例控制不当的问题。为解决上述问题,我们提出了一种全新的全局上下文增强自适应稀疏卷积网络(CEASC)。首先,通过用全局上下文特征替换基于稀疏采样特征的统计数据,它开发了一个上下文增强的组归一化(CE-GN)层,然后设计了一种自适应多层遮罩策略,以在不同尺度下生成最优遮罩比例,以紧凑地覆盖前景,从而提升了精度和效率。在两个主要的基准测试,即VisDrone和UAVDT上,通过大量实验结果显示,当将CEASC插入到典型的最先进的检测框架(例如RetinaNet和GFL V1)中时,它显著减少了GFLOPs,并加速了推理过程,同时保持了竞争性的性能。代码可在https://github.com/Cuogeihong/CEASC获得。
本文提出了CEASC检测器
由一个带有上下文增强组归一化(CE-GN)层的残差结构组成。
由于CE-GN特别保留了一组整体特征,并应用它们的统计数据进行归一化,它补偿了由稀疏卷积引起的上下文丧失,并稳定了前景区域的分布,从而避免了精度的急剧下降
通过在特征金字塔网络(FPN)的不同级别最小化一个精心设计的损失,分别估计最优的掩膜比例,平衡了检测精度和效率。
贡献:
由于已往检测器的Head非常消耗计算资源,但由于无人机平台资源的限制,以及无人机航拍图像中前景所占比例特别小,大多计算都浪费到了背景之上,所以如果仅通过计算前景区域,会节省非常多的计算资源。
所以,我们采用了最近提出的稀疏卷积来构建网络。
具体步骤:
H i = { σ ( S i + g 1 − g 2 τ ) > 0.5 , F o r t r a i n i n g S i > 0 , F o r i n f e r e n c e \mathbf{H}_{i}={\left\{\begin{array}{l l}{\sigma{\Bigl(}{\frac{\mathrm{S}_{i}+g_{1}-g_{2}}{\tau}}{\Bigr)}>0.5,}&{{\mathrm{For~training}}}\\ {\mathrm{S}_{i}>0,}&{{\mathrm{For~inference}}}\end{array}\right.} Hi={σ(τSi+g1−g2)>0.5,Si>0,For trainingFor inference
通过上述步骤,会生成一个mask特征图,在推理过程中,只有mask=1的位置涉及卷积,从而降低了整体的计算成本。
其中 H i H_{i} Hi的稀疏性是由一个mask ratio控制的,一般是由人工设定的,通常设置为0.9。
由于[44]说明目标对象周围的背景,有利于目标检测,然后SC只在前景进行目标检测,放弃了具有有用信息的背景,可能破坏整体的准确性。尤其是无人机图像中普遍存在的微小物体的情况下。
之前有提过使用线性插值方法恢复周围的上下文信息,但是效果并不好。
所以本文提出了CESC模块。
对特征图 X i X_{i} Xi进行PW卷积,生成一个全局特征信息, G i G_{i} Gi。
我们使用 G i G_{i} Gi的平均值和方差对特征图 X i X_{i} Xi进行归一化,从而弥补缺失的上下文信息。
F i , j ≡ w × L i , j − m e a n [ G i ] s t d [ G i ] + b \mathrm{~\cal~{\cal~{\cal~}}~}F_{i,j}\,\equiv\,w\,\times\,\frac{L_{i,j}\,-\,m e a n{[\mathrm{G}_{i}]}}{s t d{[\mathrm{G}_{i}]}}\,+\,b Fi,j≡w×std[Gi]Li,j−mean[Gi]+b
where j indicates the j-th SparseConvolution-GN-ReLU layer
特别的是,由于CESC是叠加使用的,其中特征图 X i X_{i} Xi只有一小部分被SC卷积,所以 G i G_{i} Gi不会消耗太多的计算量。
这里为什么使用PW卷积,生成一个全局特征信息, G i G_{i} Gi。
为了进一步减轻SC中的信息丢失,在训练期间,在使用SC的同时,还是用了正常的卷积,生成特征图特征图 C i j C_{ij} Cij,通过特征图 C i j C_{ij} Cij来加强特征图 F i j F_{ij} Fij。
L n o r m = 1 4 L ∑ i = 1 L ∑ j = 1 4 ∣ ∣ C i , j × H i − F i , j ∣ ∣ 2 \mathcal{L}_{n o r m}=\frac{1}{4L}\sum_{i=1}^{L}\sum_{j=1}^{4}||\mathbf{C}_{i,j}\times\mathbf{H}_{i}\ -\ \mathbf{F}_{i,j}||^{2} Lnorm=4L1∑i=1L∑j=14∣∣Ci,j×Hi − Fi,j∣∣2
最后还采用了residual structure
之前将,mask ratio比例通常是手工设计的,但是航拍图像前景波动严重,由于对前景区域的覆盖率不足,固定比例容易导致计算量显著增加或精度下降。所以提出AMM模块来控制mask ratio。
对于FPN不同的layer,我们是分开计算mask ratio的,不同layer具有不同的mask ratio
以下步骤是在FPN的第i-th layer
P i = P O S ( C i ) N U u m e l ( C i ) P_{i}=\frac{P_{O S}(C_{i})}{N_{U u m e l(C_{i})}} Pi=NUumel(Ci)POS(Ci)其实,也就是相当于前景pixels/所有pixels
L a m m = 1 L ∑ i ( P o s ( H i ) N u m e l ( H i ) − P i ) 2 \mathcal{L}_{a m m}=\frac{1}{L}\sum_{i}\Bigl(\frac{P o s(\mathrm{H}_{i})}{N u m e l(\mathrm{H}_{i})}-P_{i}\Bigr)^{2} Lamm=L1∑i(Numel(Hi)Pos(Hi)−Pi)2
在训练过程中,使得mask ratio尽可能向 P i P_{i} Pi靠拢。
名称 | 期刊 | 时间 |
---|---|---|
SlimYOLOv3: Narrower, Faster and Better for Real-Time UAV Applications | IEEE/CVF | 2019 |
Focus-and-Detect: A Small Object Detection Framework for Aerial Images | Signal Processing: Image Communication | 2022 |
Density Map Guided Object Detection in Aerial Images | 2020 | |
UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone Imagery(已读) | 2022 | |
Decoupled Feature Pyramid Learning for Multi-scale Object Detection in Low-altitude Remote Sensing Images(重要!!!) | IEEE | 2023 |
QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection(稀疏卷积) | CVPR | 2022 |
Learning efficient object detection models with knowledge distillation(知识蒸馏) | NeruIPS | 2017 |
Focal and Global Knowledge Distillation for Detectors(知识蒸馏) | CVPR | 2022 |
稀疏卷积 | ||
Spatially Adaptive Computation Time for Residual Networks | ||
SECOND: Sparsely Embedded Convolutional Detection |