【论文阅读】AProNet: Detecting objects with precise orientation from aerial images

论文地址:AProNet: Detecting objects with precise orientation from aerial images - ScienceDirect

论文代码:GitHub - geovsion/AProNet

以下仅仅是部分笔记,笔记大部分手写,仅用作自己复习。 (截取的图片来源于谷歌对预览论文的翻译)

【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第1张图片

 这样表达(文字分析,数据加图片)很说明问题。

 【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第2张图片

 【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第3张图片

 【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第4张图片

 【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第5张图片

我自己画的网络图不好,直接看原图吧。

【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第6张图片

 【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第7张图片

【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第8张图片 图 6特征增强(FE)模块的结构。FE 模块将RGB 图像作为输入和输出几何增强的多尺度特征图。ASPP 块由多个平行的多孔卷积层组成,以捕获丰富的几何相关信息。

为了减轻空间结构信息的缺失,FE模块直接从输入图像中提取几何特征,并通过融合层利用几何特征增强骨干FPN生成的多尺度特征。在图 6中,

  • 输入图像首先通过一个1×1 卷积层获得高维特征图。
  • 然后将这些特征图下采样到从主干 FPN 获得的多尺度特征图的相同大小,以供以后的融合操作。
  • 在下采样操作之后,特征图被输入到一个 ASPP 块 ( Chen et al., 2018 ) 中,该块放置了四个3×3atrous 卷积层并行,其中四层的膨胀率自定义为 1、6、8 和 16。
  • 与应用于高级特征的一般 ASPP 不同,我们的 FE 模块中的这些多孔卷积层被设置为提取具有多尺度上下文信息的丰富的低级高分辨率特征。然后将低级特征与之前的下采样特征连接起来,形成一组候选几何感知特征
  • 从级联特征中,一个1×1卷积层用于挑选几何感知的特征图,这些特征图与骨干网络学习的特征图融合1×1 卷积层将丰富的几何信息嵌入到所有尺度的主干特征中。

在 FE 模块中,几个空洞卷积层的组合有助于捕捉不同层次的局部几何线索。由于扩张率的调整改变了无孔卷积层的感受野大小,而无需额外的训练参数,因此 FE 模块能够在保持轻量级结构的同时,提取具有多尺度上下文信息的丰富低级特征。具体来说,当 dilation rate 为 1 时,atrous 卷积成为标准卷积层,可以连续捕获边界信息。相反,较大的 dilation rate,如 6、8 和 16,可以扩大卷积核的感受野从而获得连接远处边缘和大规模形状线索的上下文信息。正如第4节中的实验所证明的,FE 模块在提高检测性能方面是有效的。它还通过更多与几何相关的信息增强了深度多尺度特征图,这在第4.2.2节中展示的可视化结果中得到了展示。

 原文中的一些关键图。

【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第9张图片

【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第10张图片

 【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第11张图片

 【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第12张图片

 【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第13张图片

 消融实验

原文的实验分析非常好,值得好好学习一下。

消融研究仅在 DOTA 数据集上进行。进行了消融实验以验证基于轴投影的角度表示的有效性,以及设计特征增强(FE)模块和损失函数(loss)用于加强基于轴投影的角度学习。在消融研究中,选择具有基于 ResNet101 的 FPN的 Faster R-CNN 框架 ( Ren et al., 2017 ) 作为基线,在这种情况下,预测标头中包含一个额外的角度变量,用于定向目标检测。为了证明轴投影表示对角度学习的有效性,我们用我们的轴投影参数替换基线中的角度变量以形成基本的 AProNet。FE 模块和然后将损失独立嵌入到基本的 AProNet 中进行性能评估。最后,我们分析了包括 FE 模块和航拍图像中目标检测的损失。数值结果如表1所示。

【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第14张图片

【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第15张图片

 【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第16张图片

不仅会说明提升的现象还会分析为什么。

4.2.1 . 基于轴投影的角度表示的有效性

为了更深入地了解基于轴投影的角度表示的有效性,表 2中提供了类级别的比较结果。

【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第17张图片

 【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第18张图片

【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第19张图片

 先定量分析再定性分析

图 7。AProNet 和 Baseline 网络在 DOTA 数据集上的定性比较结果。边界框表示对象检测结果。(a)、(c) 和 (e) 是 AProNet 获得的结果,它仅用提出的基于轴投影的角度表示替换了直接角度表示。(b)、(d) 和 (f) 显示了使用直角表示的 Baseline 获得的可视化结果。AProNet 预测的物体边界框的方向角比 Baseline 获得的更准确,特别是对于长而细的物体。(a)、(c) 和 (e) 中显示的 AProNet 检测到的定向边界框很好地对齐了目标对象。

【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第20张图片

4.2.2 . FE 模块的有效性和损失

进一步分析 FE 模块的有效性和 增强基于轴投影的角度学习的损失,我们在表 3 中报告了按类别计算的定量结果。

 【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第21张图片

【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第22张图片

我们的 FE 模块专门设计用于捕获几何相关信息,以根据轴投影-基角表示进行准确的定向角预测。在图 8 中,我们将AProNet 的不同模块(图 1所示的 ResNet +  FPN 主干和 FE 模块)输出的特征图进行了可视化以进行进一步分析。在图 8 中,来自主干的原始特征图通常在对象的中心区域呈现高响应,并且倾向于平滑对象边缘信息,这阻碍了对推断对象的准确长轴很重要的对象形状的识别。由于物体的长轴决定了它的两个投影(),当利用基于轴投影的角度表示时,物体长轴的准确定位对角度预测精度至关重要。通过将特征图与有限元模块捕获的几何相关信息融合,增强的特征图表示更准确的边缘信息和更清晰的物体形状轮廓例如,图8中显示的飞机、车辆和港口的良好捕获轮廓。几何相关信息的增强有助于学习物体的位置和方向,因为可以通过改进的边缘和形状信息更精确地推断物体的长轴。这也反映在表1和表3的定量结果中。

4.3 . 与最先进方法的比较

在本节中,我们在两个公共数据集 DOTA(Xia 等人,2018 年)和 HRSC2016(Liu 等人,2016b年)上将我们提出的 AProNet 与其他最先进的检测器进行比较。

4.3.1 . DOTA 数据集的结果

为了对所提出的 AProNet 进行综合评估,选择了多种不同架构的方法在 DOTA 数据集上进行比较,其中包括:(1)基于角度回归的方法,包括 RoITrans(Ding 等人,2019 年)、CAD-Net ( Zhang et al., 2019 )、R3Det ( Yang et al., 2019a )、SCRDet ( Yang et al., 2019b ) 和 FFA ( Fu et al., 2020 );(2)基于非角度回归的方法,包括ICN(Azimi等,2018)Gliding(Xu等,2020)和RSDet(Qian等,2019),O2-Det(Wei等,2019)。 , 2020 ) 和 CSL ( Yang and Yan, 2020 ); Mask OBB ( Wang et al., 2019) 和 CenterMap-Net ( Wang et al., 2020 )。除了分别使用 ResNeXt-101-FPN、ResNet-152-FPN 和 Hourglass-104 的 Mask OBB、CSL 和 O2-Det 外,这些方法中的大多数都使用 ResNet-101-FPN 作为主干模型。在定量比较结果列于表4,所有的结果提交预测官方DOTA评估服务器获得。

【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第23张图片
中的总体情况表明,就 mAP 而言,那些基于非角度回归的方法往往比基于角度回归的方法产生更好的性能。虽然 FFA 的结果与基于非角度回归的方法相当,但性能的提升主要来自更强大和复杂的特征融合架构的设计。在所有比较的方法中,CenterMap-Net 和 CSL 在 mAP 方面表现出前 2 名。CenterMap-Net 是一种基于分割的方法,它依赖于 CenterMap OBB 表示来处理回归目标的定义模糊性。CSL 通过将角度预测转换为分类任务来提高检测性能,从而克服了角度回归的缺点。结果表明,使用非角度表示进行 OBB 检测有助于减轻角度偏差对最终结果的影响,因为使用直接回归精确估计方向角通常很困难。

在所有方法中,我们提出的 AProNet 以 78.16% 的 mAP 实现了最佳性能。AProNet 在 mAP 中比这些基于角度回归的方法提高了 2.46% 到 8.60%,并且在大多数对象类别中表现最好。它也明显优于基于非角度回归的方法,在 mAP 方面高出 1.99% 到 10.0%。此外,AProNet 在多个类别中获得了第一和第二名。值得一提的是,CSL 也是一种专门设计的方法,重点是角度周期性问题。从结果来看,AproNet 在减轻角度周期性的负面影响方面似乎比 CSL 更有效,这是通过学习轴投影表示进行稳健的角度预测来实现的。为了进一步目视检查,一些定性结果显示在图 9 .

【论文阅读】AProNet: Detecting objects with precise orientation from aerial images_第24张图片

 4.3.2 . HRSC2016 数据集的结果

5 . 结论

在这项研究中,我们提出了一种基于轴投影的角度学习网络(称为 AProNet),用于航拍图像中稳健的定向目标检测。我们的观察是,现有的基于角度回归的方法存在由角度周期性问题引起的训练不稳定性,这会导致方向角预测不准确,从而降低了定向目标检测的性能。为了解决这个困难的挑战,我们用一种新颖的基于轴投影的角度表示代替了直接角度表示,该角度表示没有角度周期性问题。我们还开发了一个功能增强模块(FE 模块)和一个AProNet 的损失以启用基于轴投影的有效角度学习。大量实验表明,所提出的 AProNet 可以在两个常用但具有挑战性的航空数据集(DOTA 和 HRSC2016)上始终如一地实现出色的性能。此外,单个烧蚀实验验证了使用基于轴投影的角度表示可以大大提高角度预测精度,以准确定位定向空中物体,特别是对于具有大纵横比的细长物体。消融实验还表明,FE 模块能够通过几何线索增强多尺度特征,而loss 可以为更好地学习基于轴投影的角度表示提供有用的指导。代码位于:https://github.com/geovsion/AProNet。

 综上所述,这项工作的主要成就有以下三个方面: (1) 一种新的角度表示,即基于轴投影的角度表示,它没有角度周期性问题。(2) 特征增强模块,提取几何相关信息,用于有效学习基于轴投影的角度表示。(3) 一种新颖的自适应损失函数,为具有新角度表示的有效网络训练提供指导。基于上述事实,我们的作品在理念和性能上都与现有作品有所不同。将来,我们希望利用所提出的基于轴投影的角度学习对更多类型的任意定向对象的有效性。

你可能感兴趣的:(旋转论文阅读,论文阅读,论文阅读)