Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)

A normalized Wasserstein distance and a new benchmark(论文导读)

论文链接

文章目录

      • A normalized Wasserstein distance and a new benchmark(论文导读)
        • 摘要
        • 7、结论
        • 1、介绍
        • 2、相关工作
          • 2.1 航空目标检测数据集
          • 2.2 微小目标检测策略
        • 3、数据集
        • 4、方法
          • 4.1 归一化高斯瓦瑟斯坦距离(NGWD)
          • 4.2 基于排名的分配(RKA)
        • 5.分析
          • 5.1 度量分析
          • 5.2 NWD-RKA的分析
        • 6、实验
          • 6.1 实验设置
          • 6.2 基准
          • 6.3 NWD-RKA实验结果
            • 6.3.1 基础改进
            • 6.3.2 其他指标的比较
            • 6.3.3 消融研究
            • 6.3.4 其他数据集的实验
          • 6.4 可视化

摘要

Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第1张图片
航空图像中的小物体检测(TOD)具有挑战性,因为一个小物体只包含几个像素。由于缺乏对鉴别性特征的监督,最先进的物体检测对微小的物体不能提供令人满意的结果。我们的关键观察是(IOU)度量及其扩展对微小的位置偏差非常敏感,当使用基于锚点的检测器时,这大大降低了标签分配的质量。为了解决这一问题,我们提出了一种新的评估度量,称为归一化瓦瑟斯坦距离(NWD)和一种新的基于排名的分配(RKA)策略,用于微小目标检测。提出的NWD-RK策略可以很容易地嵌入到各种基于锚点的检测器中,以取代标准的基于IOU阈值的策略,显著改善标签分配,为网络训练提供足够多的监督信息。在四个数据集上进行测试,NWD-RKA可以大幅度地提高微小目标检测性能。此外,在航空图像(AI-TOD)数据集的小物体检测中观察到显著的噪声标签,我们需要精心地重新标记它,并发布AI-TOD-v2及其相应的基准测试。在AI-TOD-v2中,缺失的注释和定位的错误问题被大大减轻,促进了更可靠的训练和验证过程。在AI-TOD-v2上,将NWD-RKA嵌入到检测器中的检测性能比目前最先进算法提高了4.3个AP点。

导读:由于检测目标的面积本身很小,通常的IOU计对这种目标的位置偏差很敏感。作者提出了 Normalized Wasserstein Distance (NWD)和 RanKing-based Assigning (RKA)这两种算法用于改进这个问题,并改进了AI-TOD数据集,称为AI-TOD-v2。

7、结论

Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第2张图片
在本文中,我们提出了一种新的NWD-RKA方法来检测航空图像中的微小物体,同时发布了一个精心优化的数据集AI-TOD-v2及其相应的基准。提议的NWD-RKA方法是一种利用归一化瓦瑟斯坦距离和基于排序的策略的标签分配策略。此外,NWD-RKA可以很容易地嵌入到各种基于锚点的检测领域中以提高在微小物体检测上的性能。新构建的AI-TOD-v2在所有航空图像数据集中拥有最小平均目标的大小。在四个数据集上进行的大量实验表明我们的方法可以在很大程度上提高微小物体探测器的性能,并在AI-TOD-v2上达到最先进的水平。
我们希望,将我们的开放获取数据集和有希望的检测性能相结合,将鼓励世界视觉和计算机视觉社区将考虑在航空图像中进行微小物体探测的具有挑战性的问题。此外,可以对定制的算法进行公平的比较,从而促进TOD研究的发展。
导读 :对应摘要,NWD-RKA算法对于微小目标检测性能相比普通IOU的检测有大幅度的提升,同时希望航空图像检测研究者使用AI-TOD-v2。

1、介绍

微小物体在航空图像中普遍存在,同时在航空图像中检测微小物体具有许多应用场景,包括车辆检测、交通状况监测和海事营救,尽管深度神经网络的发展,目标检测取得了重大进展(Ren等人,2015;Lin等人,2017b;Tian等人,2019),但大多数都是开发用来检测正常大小的物体。而航空图像中的微小物体(在AI-TOD数据集中小于16×16像素(Wangetal.,2021a))往往表现出极其有限的外观信息,使学习鉴别特征方面带来了巨大的挑战,导致了检测微小物体时的巨大失败案例(Singh等人,2018;Wang等人,2021a;Yu等人,2020年)。
微小物体检测(TOD)的最新进展主要集中在提高特征识别能力上(Lin等人,2017a;赵等人,2019;Qiao等人,2021;李等人,2017;白等人,2018;Noh等人,2019年)。对输入图像尺度进行归一化处理,以提高小物体和相应特征的分辨率(Singh和Davis,2018;Singh等人,2018).而生成对抗网络(GAN)可以直接生成小对象的超解析表示(Li等人,2017;Bai等人,2018;Noh等人,2019年)。此外,特征金字塔网络(FPN)被提出来学习多尺度特征,以实现尺度不变的检测器(Lin等人,2017a;Zhao等人,2019;Qiao等人,2021年)。事实上,现有的方法已经在一定程度上提高了TOD的性能,但精度的提高通常是通过额外的成本来实现的。
除了学习鉴别特征外,训练样本选择的质量对基于锚点的微型物体检测的效果起着重要的作用(Zhangetal.,2020),其中正样本和负样本的标签是必不可少的。然而,对于一个很小的物体,只有几个像素的属性会增加训练样本选择的难度。如图1和图2所示,我们有以下两个关键的观察结果。最引人注目的观察是 IOU对不同尺度物体的敏感性差异很大。具体来说,对于这个很小的目标在5×8像素时,一个较小的位置偏差将导致IoU的结果显著下降(从0.54到0.14),最后导致标签分配不准确。但是,对于具有200×320像素的普通对象,位置偏差相同的情况下IOU的结果略有变化(从0.97到0.91)。图2显示了物体四种不同尺度下的iou-偏差曲线,随着物体尺寸的变小,曲线下降得更快。值得注意的是,IoU的敏感性来自于边界框的位置发生离散性变化的特殊性。换句话说,随着物体尺度的增加,IoU值从单元像素偏差逐渐近似于连续变化,因此在检测正常大小的物体时,通常忽略了IoU的离散性。第二个观察可以观察到,当它们边界框没有重叠或相互包容时,IoU不能反映它们的的位置关系,这个通常是存在很小的边界框的情况。
以上的观察结果表明,IoU不适合评估微小物体之间的位置关系,并且很容易导致标签分配中的三个缺点。具体来说,IoU阈值(,)用于分配基于锚点的检测器中的正负训练样本,例如,在RPN中使用(0.7,0.3)(Girshick,2015)。首先,IoU对一个微小物体的敏感性使得一个较小的位置偏差翻转锚定标签。在目前的测量方法下,大多数锚定候选框都变成负样本训练,导致tiny物体的正/负训练样本数量不平衡。其次,我们发现基于iou的分配存在严重的规模不平衡问题。在AI-TOD数据集中(Wangetal.,2021a)中,分配给每个 ground-truth(gt)的正样本的平均数量的规模是极其不平衡,大尺度的物体比小尺度的物体被分配更多的正样本。因此,该网络倾向于优化更大规模的对象。尽管动态分配策略,如ATSS(Zhangetal.,2020)根据对象的统计特征,自适应地设置IoU阈值来分配正/负标签,IOU的敏感性使得很难找到一个良好的阈值和为微型物体检测提供高质量的正/负样本。最后,样本补偿分配策略在目前的测量方法下效果不理想。为了使每个实例得到充分的训练,启发式方法通常用于保证每个gt至少有一个训练样本(Ren等人,2015;Zhang等人,2017;Xu等人,2021),我们称这种方法为样本补偿策略。然而,IoU保持当两个框分开时,则为零。在这种情况下,很难根据相同的IoU评分提供合理的锚点候选等级。
此外,我们建议召集专家,精心地重新标记我们的初步TOD数据集(Wangetal.,2021a)根据我们的统计,标签噪声问题得到了显著的缓解,并且增加了超过5万个之前未被注释的实例。发布的AI-TOD-v2包含8个类别,有28,036张图片和752,754个实例。此外,AI-TOD-v2的平均绝对对象大小只有12.7像素,据我们所知,是所有对象检测数据集中对象尺寸最小的数据集。然后,为了促进算法的开发和与AI-TOD-v2的比较,我们建立了一个包含比初步版本更多基线的基准测试(Wangetal.,2021a)。
Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第3张图片
Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第4张图片
Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第5张图片本文的贡献有三方面:
我们提出了NWD-RKA作为一种更好的针对小物体训练样本分配策略,可以同时缓解基于IOU阈值策略的三个缺点(微小物体的严重正负样本不平衡,比例样本不平衡,样品补偿失败)
我们仔细地重新标记AI-TOD并发布AI-TOD-v2,其中标签噪声问题显著缓解。此外,我们还通过几个基线检测器建立了一个全面的基准测试。训练集/验证集和注释是公开的
我们提出的NWD-RKA可以应用于各种基于锚点的检测器,并提高它们在微小物体上的性能。在AI-TOD-v2数据集上,我们实现了24.7AP和57.2AP0.5的性能,它的表现远远超过了最先进的竞争对手。此外,在AI-TOD、VisDrone2019和DOTA-v2.0数据集上也可以看到显著的改进。
本文的其余部分组织如下。在第2节中,我们简要地描述了相关的工作。在第3节中,我们展示了AI-TOD-v2的细节。详细描述了所提出的方法,包括NWD的建模和基于NWD-RKA的检测器的设计。然后在第4节中提供。接下来,在第5节中对不同的指标和NWD-RKA进行了深入的分析。然后,在第6节中讨论了实验结果。最后,我们得出这个结论第7节中的纸张。
导读:主要讲解标准的IOU对于微小物体检测的缺陷,1、对位置变化敏感 2、两个框没有重合或是两个框相容的时候,IOU不能反映两个框的位置关系。

2、相关工作

2.1 航空目标检测数据集

在航空目标探测中,已经提出了许多数据集来促进其发展。例如,DIOR(Li等人,2020b)、DOTA(Xia等人,2018)、xView(Lam等人,2018)、Vis无人机(Zhu等人,2018年)、HRSC2016(Liu等人,2016b)、VEDAI(拉扎卡里沃尼和Jurie,2016)、NWPU VHR-10(Cheng等人,2014)、UAVDT(Yu等人,2019)和FAIR1M(Sun等人,2021b)都是航空目标检测数据集。然而,这些数据集的目标平均像素大小远远大于32像素,而大于32像素的目标占据了大部分的数据集,这表明这些航空图像数据集不适用于评估微小物体检测的性能。虽然也有一些数据集专注于微小的目标检测任务(例如,TinyPerson(Yuetal.,2020), R 2 R^2 R2-CNN(Pang等人,2019年),TinyPerson只包含现实场景中的一类人,而 R 2 R^2 R2-CNN的数据集并不公开。
相比之下,我们提出的AI-TOD-v2是专门用于航空图像中的微小物体检测。AI-TOD-v2的目标平均像素大小只有12.7像素,实例小于16个像素占86%,这比现有的数据集要小得多。

2.2 微小目标检测策略

以往的大多数小/微小目标检测策略都大致可以分为以下五类:多尺度特征学习、基于上下文的检测、数据增强、设计制定更好的训练策略(Tongetal.,2020)和标签分配策略。
多尺度特征学习: 一种简单而经典的方法是将输入图像调整到不同的尺度,训练不同的检测器,每个检测器都可以在一定的尺度范围内获得最好的性能。它通过额外的计算成本提高了对微小物体的检测性能。为降低计算成本,部分工作(Liu等,2016a;曹等,2018;邓等,2018;林等,2017a;张等,2018;Yang等人,2018;Zheng等人,2020b)试图构建不同尺度的特征图。例如,SSD(Liuetal.,2016a)从不同分辨率的特征层中检测目标,以及特征金字塔网络(FPN)(Linetal.,2017a)构建了一个具有横向连接的自顶向下的结构,并结合了不同尺度的特征信息,提高了微小目标的检测性能。基于这两个基础网络,许多工作,包括特征融合SSD(FFSSD)(Cao等人,2018)、多尺度CNN(MSCNN)(Deng等人,2018)和深度特征金字塔网络(DFPN)(Yang等人,2018年)被提出。
基于上下文的检测: 目标与图像中的背景和环境信息密切相关。背景信息在物体检测中起着重要的作用,特别是当一个物体很小和它的特征信息有限。多区域CNN(MRCNN)(Gidaris和科莫达基斯,2015)利用局部上下文信息,从目标推荐的子区域和简单地连接中提取特性。Inside-Outside Network(ION)(Belletal.,2016)通过使用感兴趣区域(RoI)内外的特性来利用全局上下文信息。关系网络(HuetHu等人)通过外观特征与几何形状之间的相互作用,建立了物体之间的关联模型。
数据增强: 人们普遍认为,可以通过使用更多的数据进行训练来提高检测器的性能。同样地,通过数据增强,可以提高微小物体检测器的性能。一个简单而有效的方法是收集更多的小对象数据,制作高质量的数据集。一些简单的数据增强方法包括图像翻转、上采样、下采样、旋转等。(Kisantal等人,2019年)发现小目标表示的缺乏是数据集中导致小目标检测恶化的因素之一。(Kisantal等人,2019年)建议通过对包含的小目标的图像进行过采样和复制粘贴小目标进行数据增强。
设计更好的训练策略: 受观察结果的启发,同时检测微小物体和大型物体是具有挑战性的。Singh等人提议有选择地训练特定尺度范围内的目标。此外,Kim等人(Kimetal.,2018)引入尺度感知网络(SAN),将从不同空间提取的特征映射到一个尺度不变的子空间上,使检测器对尺度变化的鲁棒性更强。
标签分配策略: 将高质量的锚点分配给微小物体的 g t gt gt框是一个挑战。一种简单的方法是在选择正样本时降低IoU阈值。虽然它可以使小物体匹配更多锚框,训练样本的整体质量就会下降。此外,最近的许多工作试图使标签分配过程更具适应性,旨在提高检测性能(Ge等人,2021年)。例如,Zhang等人(Zhang等人,2020)提出了一种自适应训练样本选择(ATSS),提出了一种自适应训练样本选择(ATSS),通过对一组锚点的IoU的统计值,自动计算每个gt的正/负样本的阈值。概率锚点分配(PAA)(KimandLee,2020)假设正/负样本的联合损失分布遵循高斯分布。此外,最优传输分配(OTA)(Geetal.,2021)将标签分配过程定义为最优传输问题。然而,这些方法都使用IoU度量来衡量两个边界框之间的相似性,主要关注标签分配的阈值设置,这不适用于TOD。
基于超分辨率的策略: 正如之前的工作(Shermeyer和VanEtten,2019)所述,通过深度超分辨率框架提高图像的分辨率可以提高卫星图像中的目标检测性能。一些方法提出了将超分辨率(SR)策略集成到检测管道中,以增强特征表示,提高微小目标的检测性能。例如,提出了一种边缘增强的SRGAN(Rabbietal.,2020)来增强遥感图像,从而提高对小物体的检测性能。通过在检测器中添加一个辅助GAN在框架上,该工作(Courtraietal.,2020)提高了SR架构的质量,提高了目标检测性能。此外,循环GAN和残差特征聚合来改进SR框架(Bashir和Wang,2021),显著提高了小物体的检测性能。
核心检测自适应策略: 一些研究试图将核心检测结果直接用于微小物体。掩模引导的SSD(Sunetal.,2021a)提出使用上下文信息增强检测特征并消除背景特征与分割掩模,在小目标检测上表现出良好的性能。YOLOFine(Phametal.,2020)改进了YOLO以适应小目标检测任务,同时对小目标检测具有较高的效率和精度。此外,还设计了一种改进的快速R-CNN(Renetal.,2018),用于通过提高分辨率来检测小物体的FPN和结合了几种训练策略
相比之下,我们的方法主要侧重于设计一个更好的相似性度量及其定制的标签分配策略,可用于替代对象检测器中基于iou的标签分配策略。
导读: 介绍了目前基于小目标检测的一些方法,但这些方法没有更侧重于IOU方向进行的算法优化。

3、数据集

我们基于初步工作AI-TOD构建了WI-TOD-v2数据集(Wangetal.,2021a)。我们观察到有许多遗漏的对象需要注释,这主要是由于AI-TOD基于公开航空图像数据集(Xia等,2018;Lam等,2018;朱等,2018;空客,2018;李等,2020b),不用于微小物体检测,标签噪声问题显著地影响了微小物体检测的训练和验证。这促使我们精心地重新标记AI-TOD数据集,从而使检测模型的训练和验证更加可靠。此外,我们建立了一个更全面的基准和更多的基准检测器,以鼓励在航空图像中的微小物体检测的研究。注意,AI-TOD和AI-TOD-v2共享相同的图像,但包含不同的标注。
导读: 数据介绍

4、方法

在本节中,我们首先描述了小边界框之间的归一化高斯瓦瑟斯坦距离(NWD)的建模。然后,我们展示了我们提出的基于ranking的分配(RKA)的过程战略及其与NWD的结合。

4.1 归一化高斯瓦瑟斯坦距离(NGWD)

IoU实际上是计算两个有限样本集相似度的Jaccard相似度系数,受此启发,我们基于瓦瑟斯坦距离为微小物体设计了一个更好的度量方法,因为它可以一致地反映分布之间的距离,即使它们没有重叠。因此,在度量微小物体之间的相似性方面,该新的度量方法比IoU具有更好的性能。详情如下:
对于微小的物体,在它们的边界框中往往会有一些背景像素,因为大多数真实的物体都不是严格的矩形。在这些边界框中,前景像素和背景像素都集中在边界框的中心和边界上。为了更好地描述边界框中不同像素的权重,边界盒可以被建模为二维(2D)高斯分布,其中,边界框的中心像素的权重最高,并且像素的重要性从中心到边界都在减小。我们遵循将边界框的中心点作为高斯分布均值向量的范式(Wangetal.,2021b;Golman等,2019;Yang等,2021)具体来说,对于水平边界框 R = ( c x , c y , w , h ) R=(cx,cy,w,h) R=(cx,cy,w,h),其中 ( c x , c y ) (cx,cy) (cx,cy) w w w h h h分别表示中心坐标、宽度和高度。其内接椭圆的方程可以表示为: ( x − u x ) 2 / σ x 2 + ( y − u y ) 2 / σ y 2 = 1 (x-u_x)^2 /\sigma_x^2 + (y-u_y)^2/\sigma_y^2=1 (xux)2/σx2+(yuy)2/σy2=1.式中 ( u x , u y ) (u_x,u_y) (ux,uy)为椭圆的中心坐标, σ x \sigma_x σx σ y \sigma_y σy是沿和轴的半轴的长度,相应的 u x = c x , u y = c y , σ x = w / 2 , σ y = h / 2 u_x=cx,u_y=cy, \sigma_x=w/2,\sigma_y=h/2 ux=cx,uy=cy,σx=w/2,σy=h/2.二维高斯分布的概率密度函数为:
f ( x ∣ u , ϵ ) = e x p ( − 1 2 ( x − u ) ⊤ ϵ − 1 ( x − u ) ) 2 π ∣ ϵ ∣ 1 2 f(x|u,\epsilon)=\frac{exp(-\frac{1}{2}(x-u)^\top\epsilon^{-1}(x-u))}{2\pi|\epsilon|^\frac{1}{2}} f(xu,ϵ)=2πϵ21exp(21(xu)ϵ1(xu))

其中 x , u x,u x,u ϵ \epsilon ϵ表示高斯分布的坐标 ( x , y ) (x,y) (x,y)、均值向量和协方差矩阵。 ( x − u ) ⊤ ϵ − 1 ( x − u ) ) = 1 (x-u)^\top\epsilon^{-1}(x-u))=1 (xu)ϵ1(xu))=1,方程中的椭圆将是一个二维高斯分布的密度轮廓。因此,水平边界框 R = ( c x , c y , w , h ) R=(cx,cy,w,h) R=(cx,cy,w,h)可以被建模为一个二维高斯分布的 N ( u , ϵ ) \mathcal N(u,\epsilon) N(u,ϵ):
u = [ c x c y ] u=\begin{bmatrix} cx \\ cy \end{bmatrix} u=[cxcy], ϵ = [ w 2 4 0 0 h 2 4 ] \epsilon=\begin{bmatrix} \frac{w^2}{4} & 0 \\ 0 & \frac{h^2}{4} \end{bmatrix} ϵ=[4w2004h2]
此外,边界框和之间的相似性可以转换为两个高斯分布之间的分布距离
我们使用来自最优运输理论(Peyreetal.,2019)的瓦瑟斯坦距离来计算分布距离。 u 1 = N ( m 1 , ϵ 1 ) u_1=\mathcal N(m_1,\epsilon_1) u1=N(m1,ϵ1) u 2 = ( m 2 , ϵ 2 ) u_2=\mathcal(m_2,\epsilon_2) u2=(m2,ϵ2), u 1 u_1 u1 u 2 u_2 u2之间的二阶瓦瑟斯坦距离可以简化为:
W 2 2 ( u 1 , u 2 ) = ∣ ∣ m 1 − m 2 ∣ ∣ 2 2 + ∣ ∣ ϵ 1 1 2 − ϵ 2 1 2 ∣ ∣ F 2 W^2_2(u_1,u_2)=||m_1-m_2||_2^2 + ||\epsilon^\frac{1}{2}_1 - \epsilon^\frac{1}{2}_2||^2_F W22(u1,u2)=m1m222+ϵ121ϵ221F2
∣ ∣ ⋅ ∣ ∣ F ||·||_F F是Frobenius范数,简称F-范数,是一种矩阵范数,记为 ∣ ∣ ⋅ ∣ ∣ F ||·||_F F。矩阵的Frobenius范数定义为矩阵内各项元素的绝对值平方的总和开根
Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第6张图片
2-范数,L2
将边界框 A = ( c x a , c y a , w a , h a ) 和 B = ( c x b , c y b , w b , h b ) A=(cx_a,cy_a,w_a,h_a)和B=(cx_b, cy_b, w_b,h_b) A=(cxa,cya,wa,ha)B=(cxb,cyb,wb,hb)的高斯分布 N a \mathcal N_a Na N b \mathcal N_b Nb建模,公式5可以进一步简化为:
W 2 2 ( N a , N b ) = ∣ ∣ ( [ c x a , c y a , w a 2 , h a 2 ] , [ c x b , c y b , w b 2 , h b 2 ] ) ∣ ∣ 2 2 W^2_2(\mathcal N_a,\mathcal N_b)=||([cx_a,cy_a,\frac{w_a}{2},\frac{h_a}{2}],[cx_b,cy_b,\frac{w_b}{2},\frac{h_b}{2}])||^2_2 W22(Na,Nb)=([cxa,cya,2wa,2ha],[cxb,cyb,2wb,2hb])22

然而, W 2 2 ( N a , N b ) W^2_2(\mathcal N_a,\mathcal N_b) W22(Na,Nb)是值范围的距离度量 [ 0 , + ∞ ] [0,+\infty] [0,+],因此,它不能直接用作分配标签的相似度度量。为了获得一个类似于IOU的值范围(即,在0到1之间),使度量值完全符合位置偏差。我们启发式地选择一个指数非线性变换函数,将高斯瓦瑟斯坦距离重新映射到另一个空间,从而将其值范围归一化为(0,1],通过这样做,我们得到了新的度量,称为归一化化瓦瑟斯坦距离(NWD)。
N W D ( N a , N b ) = e x p ( − W 2 2 ( N a , N b ) C ) NWD(\mathcal N_a,\mathcal N_b)=exp(-\frac{\sqrt{W_2^2(\mathcal N_a,\mathcal N_b)}}{C}) NWD(Na,Nb)=exp(CW22(Na,Nb) )
当是一个常数时,我们通过实验观察到在一定的范围内,它的选择是稳健的,细节将显示在第6.3.3节。

4.2 基于排名的分配(RKA)

在此,我们将首先回顾传统的基于阈值的锚点分配过程,这首先在FasterR-CNN中引入(Renetal.,2015)。我们的分析表明我们的分析表明,不同尺度物体的锚的分配是极其不平衡的,因此微小的物体没有得到充分的监督。为了缓解这一问题,我们提出了一种新的基于排名的分配策略,并将其与NWD结合起来,以充分利用该新度量在微小对象上的优势。
基于阈值的分配策略:在FasterR-CNN中,首先生成不同尺度和比例的锚点。然后给生成的锚点分配二进制标签用于训练分类和检测的回归,IOU被用作确定正负样本的指标。具体来说,如果满足以下两个条件之一,正标签将被分配给锚框。第一个条件是特定锚框和真实的边界框的IOU值是所有锚框中最大的。第二个条件是一个特定的锚框和一个真实的边界框的IoU值大于正阈值 θ p \theta_p θp。因此,如果所有真实框的IoU值都小于,则将负标签分配给锚点。既没有分配正标签也没有分配负标签的锚点不参与训练过程。下图8所示,我们计算在不同大小范围内分配给每个对象的正训练样本的平均数量。很明显,在当前的基于IOU和阈值的分配策略下,分配者倾向于将更多的正训练样本分配到一定的尺度范围内。
Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第7张图片
基于排名的分配策略:为了缓解上述问题,使微小物体的特征在训练网络上得到充分的训练。我们提出了一种基于排序的锚框分配策略,其示意图如下:基于排名靠前的分配(RKA)策略的关键步骤的总结如下。首先,我们将真实框和锚点框建模为二维高斯分布,并计算每个真实框和锚点框高斯分布的NWD。然后,得到NWD的分数矩阵,我们将每个锚框按照其特定gt的NWD分数进行排序。代替设置标签分配的阈值,我们将pos标签分配给前K得分的锚框在一个特点的gt上。我们给剩余的锚框分配neg标签。所提出的RKA有效地利用了NWD的优势,这将在下一节中详细讨论。
Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第8张图片
在本文中,我们选择了基于锚点的物体检测(Ren等人,2015;Cai和Vas.,2018;Lin等人,2017b;Qiao等人,2021;张等人,2020),它同时保持了最先进的性能在目标检测任务(Qiaoetal.,2021)和微小目标任务(Xuetal.,2021)作为基础检测网络。
一般来说,所提出的NWD-RKA策略可以很容易地集成到任何基于锚点的检测中,以取代标准的基于IOU的分配策略,从而提高其检测微小的物体的性能。值得注意的是,我们提出的方法在推理阶段不会带来任何额外的成本。
**导读:**提出两个策略代替训练时候的IOU,第一利用锚点框和真实框的二维高斯分布的瓦瑟斯坦距离替代IOU的交并比,第二把之间的距离排序,选择k个,代替阈值的方式。

5.分析

本部分可分为两部分。在第一部分中,我们将分析IoU和NWD的特性。在第二部分中,我们将首先总结IOU产生的三个主要缺陷然后展示NWD-RKA如何同时处理它们,提高小目标检测性能。

5.1 度量分析

与IoU相比,NWD在检测微小物体方面具有以下优点:1)平滑度到位置偏差,2)比例平衡,3)不重叠或相互包含的边界框之间的相似性的测量能力.如图2所示,在不失去普遍性的情况下,我们讨论了以下两种情况下度量值的变化。图2的第一行,我们保持框和相同的比例,并沿的对角线移动。可以看出,IOU对微小的位置偏差过于敏感,但由于位置偏差,产生的NWD变化更为平稳。位置偏差的平滑性表明在相同的阈值下,比IoU有可能补偿更多的pos样本。此外,我们可以观察到NWD的四条曲线完全重合,这表明NWD有潜力为不同尺度的物体提供平衡数量的训练样本,可以叫做具有尺度平衡属性。因为在当前基于阈值的标签下,较大尺度的对象往往被分配更多的正训练样本。平衡正训练样本数量有利于学习小目标,在图2的第二行中,我们将的边长设置为的边长的一半,然后沿着的对角线移动到之外。与IoU相比,NWD的曲线更加光滑,并且能反映和之间的相似性,即使 ∣ A ∩ B ∣ = A o r B |A\cap B|=A or B AB=AorB ∣ A ∩ B ∣ = 0 |A\cap B|=0 AB=0
Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第9张图片

5.2 NWD-RKA的分析

正如RetinaNet(Linetal.,2017b)所指出的那样,正/负样本不平衡问题是导致检测性能恶化的主要障碍之一。根据我们的观察,启发式抽样(Ren等人,2015;施里瓦斯塔瓦等人,2016)之前,在AI-TOD-V2数据集上正/负样本的比例远低于MSCOCO(Lin等人,2014)(Ren等人,2015;Shrivastava等人,2016),这是由于IOU对微小物体的位置偏差的敏感性导致的。结果表明,在检测微小物体时,正负样本不平衡的问题更加严重,导致网络缺乏训练信息。NWD-RKA策略可以通过为网络训练补充更多的正样本来显著缓解这个问题。根据我们的统计,使用NWDRKA在一个epoch内正样本的数量增加到709,060个(比基础网络多490,240个),增加的正样本为以下分类和回归提供了更多的训练信息,通过Tab4的AP和AR的改善,可以推断出来。
Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第10张图片
尺度不平衡问题是阻碍尺度不变目标检测的另一个核心问题(Zhang等,2017;Oksuz等,2021;Ming等,2019)具体地说,尺度不平衡问题意味着分配给每个gt的正样本数量有很大的差异,这是由于锚点尺度是离散的是连续的。尺度不平衡问题会导致远离锚点尺度的物体召回率较低(Zhangetal.,2017)。在微小物体检测中,这个问题尤其显著。如图8所示,我们分别分析了在IOU、NWD和NWD-RKA条件下分配给每个gt框的正样本数量。可以观察到的是,在faster R-CNN上,分配样本不平衡的问题是严重的。在微小尺度范围内的目标几乎不能分配任何正样本。然而,当使用NWD-RKA策略时,分配给不同尺度的正样本的数量明显提高,对不同的实例平衡优化。
为了保证网络充分学习每个实例,启发式方法的部署通常是为了确保每个gt至少分配一个锚点(Ren等人,2015;Zhang等人,2018),我们将其总结为一个样本补偿策略。然而,如图2所示,由于IOU对微小物体的敏感性,IOU很容易通过微小的位置偏差降至零。虽然基于排名的分配策略(RKA)被提出用于基于锚点候选者的排序为小物体提供更多的正样本,但它的优势不能充分利用,因为分配者不能对具有相IOU值(零)的锚点的优先级进行排序。NWD可以很容易地解决这个问题,因为当分布之间的重叠可以忽略不计时,瓦瑟斯坦距离可以测量位置关系。如图2所示,即使box A和box B之间没有重叠,NWD也会不断反映它们的位置关系(即NWD>0)。在这种情况下,即使一个特定的gt和所有锚点之间没有重叠(即IoU=0),它们之间的NWD值也总是高于0,这会给排序一个合理的指标。因此,在NWD-RKA策略下,该gt框至少可以保证有一个合适的训练样本。
导读:基于不用的基础模型就行了验证分析。

6、实验

本节重点介绍对一些具有代表性的检测网络进行基础测试,以及验证我们提出的方法的有效性。我们首先展示了实验设置,包括数据集,参数设置和评估指标。然后,我们提供了一个基于一系列综合检测网络的大规模基础测试。最后,我们提出的方法的有效性将通过广泛的比较实验和消融研究来验证。

6.1 实验设置

数据集:为了评价所提出的小目标检测方法,主要实验在AI-TOD-v2训练集上进行了训练,并在AI-TOD-v2测试集上进行了验证。为了进一步验证其泛化性和鲁棒性,我们在包含大量微小物体的航空图像数据集上进行了更多的实验,包括:AI-TOD(Wang等人,2021a)、VisDrone2019(Du等人,2019)和DOTA-v2.0(Ding等人,2021年)。请注意,对于VisDrone2019和DOTA-v2.0,我们使用它们的训练集进行训练,并使用验证集进行测试。
参数设置:我们在使用1台NVIDIA RTX 3090GPU的计算机上进行了所有实验,模型训练均基于PyTorch(Paszkeetal.,2019)深度学习框架。我们使用ImageNet预训练的ResNet-50(He等人,2016)和FPN(Linetal.,2017a)作为基础网络,另外,所有的模型都使用随机梯度下降(SGD)优化器对12个epoch的momenta为0.9,0.0001重量衰减和2batch size。我们将初始学习率设置为0.01,并在第8epochs和第11epochs进行衰减。此外,RPN和FasterR-CNN的批量大小设置为256和512,特别地,并将正样本和负样本的采样比设为1/3。由RPN生成的数量被设置为3000个。在推理阶段,我们使用预设的0.05分数来过滤掉背景边界框,NMS应用IOU阈值为0.5,最多可生成3000个边界框。除另有说明外,所有实验均使用上述训练和推理参数。
评价指标:我们使用AP(平均精度)度量来评估所提方法的性能。具体来说, A P 0.5 AP_{0.5} AP0.5为定义TP的IOU阈值为0.5, A P 0.75 AP_{0.75} AP0.75为定义的IOU阈值TP为0.75,AP为AP0.5到AP0.95的平均值,IOU区间为0.05。请注意, A P 0.5 AP_{0.5} AP0.5 A P 0.75 AP_{0.75} AP0.75和AP都考虑了所有尺度的检测。此外, A P v t AP_{vt} APvt A P t AP_t APt A P s AP_s APs,和 A P m AP_m APm分别用于AI-TOD中非常微小、微小、小和中等尺度的评估(Wangetal.,2021a)。 A R 1500 AR^{1500} AR1500表示平均召回率,最大检测数为1500。

6.2 基准

我们在超过15个基础检测上进行了实验,基本覆盖了基于锚点检测(包括一级和多级)和无锚点检测。在这个基准测试中,因为每幅航空图像通常比每幅自然图像包含更多的物体。我们将生成的数量和每幅图像的最大检测次数从100改变到3000,所有的结果类AP和单类AP分别列在tab4和tab5,其中我们有以下的观察结果。(1)一般来说,当直接将检测应用于AI-TOD-v2时,它们的性能远远低于自然场景数据集,如MSCOCO(Linetal.,2014)和VOC(Everinghametal.,2015), A P v t AP_{vt} APvt接近于零。航空图像中微小物体极其有限的外观信息和复杂的背景信息给现有的图像检测带来了巨大的挑战。(2)多级检测(例如,更快的R-CNN(Ren等人,2015)、级联R-CNN(Cai和Cai和Vas.,2018)和DetectoRS检测(Qiao等人,2021))倾向于比单级锚点的检测性能强(例如,视网膜网(Lin等,2017年b)、SSD(刘等,2016年)、YOLO(红蒙和法哈迪,2018年))和无锚点检测器(如FCOS、孔等,2020年)和CenterNet(Zhou等,2019年),得益于渐进式的优化机制,多级检测器比基于锚点的检测器更好地处理背景和前景类的不平衡问题(Linetal.,2017b)。因此,可以推断,在TOD任务中,检测器存在严重的背景和前景类不平衡问题。(3)由于训练样本数量不平衡,一些罕见类别的检测性能比常见类别差得多。不平衡问题也存在于现实应用中和许多其他航空数据集(Li等人,2020b;Xia等人,2018),需要设计一个鲁棒的算法。
此外,在现实世界中,标签噪声问题确实存在。如上所述,AI-TOD和AI-TOD-v2共享相同的图像,但包含不同的注释。因此,AI-TOD和AI-TOD-v2是一对自然的有噪声和噪声较小的数据集。在标签噪声场景中,精确的目标检测在计算机视觉和地球视觉社区中都具有极大的兴趣(Lietal.,2020a,2019a;Pelletier等人,2017)。在这种情况下,我们希望AI-TOD的存在将鼓励噪声鲁棒的目标检测方法,这在两个数据集上都有希望的改进。
综上所述,所提出的大规模AI-TOD-v2提出了航空图像中的微小目标检测问题,且该基准测试更加全面。与此同时,所提出的问题引起了地球视觉界的广泛兴趣,也是影响遥感解释的主要障碍之一。此外,还有其他一些其他有趣的问题(例如,类别不平衡,不同的背景,标签噪声),也存在于其他航空图像数据集,这将给设计专门用于航空图像中的微小物体检测的算法带来许多挑战。我们希望通过引入最小对象大小下的检测基准,可以进行公平的比较优化算法,从而促进了社区的发展。
Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第11张图片
Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第12张图片
Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第13张图片

6.3 NWD-RKA实验结果

在本节中,我们将展示我们提出的方法显著地消除了典型物体检测算法在微小物体上的问题,并很大程度上提高了它们的性能。有四组实验: 基础改进、其他分配指标的比较,消融研究,以及在不同的数据集上的结果。请注意,除非另有说明,否则Faster R-CNN被用作基础检测。

6.3.1 基础改进

为了验证我们提出的方法可以应用于任何基于锚点的检测器,并提高微小目标的检测性能,我们选择了4个检测器进行测试,包括一级基于锚点的检测:RetinaNet(Lin等人,2017年b)和两级基于锚点的检测:Faster R-CNN(Ren等人,2015年),Cascade R-CNN(Cai和Vas.,2018年)和DetetoRS(Qiao等人,2021年)。实验结果为显示在选项4和选项5。可以看出,基于NWD的检测将RetinaNet、R-CNN、Cascade R-CNN和DeectoRS的AP度量分别提高了1.6、8.6、7.1和8.6个AP点。当对象非常小时,甚至更加明显。

6.3.2 其他指标的比较

除了IoU,许多改进的指标,如GIoU(雷扎托菲吉等,2019)、DIoU(郑等,2020a)、CIoU(郑等,2020a)和GWD(Yang等,2021)被更好地评估边界框之间的关系。然而,它们最初被设计为损失函数,因此在应用于标签分配时可能产生次优结果。在本文中,为了验证我们提出的方法在小物体上的优势,我们分别重新实现了GIoU、DIoU、CIoU和用GWD指标来替换IOU的标签分配。为了进行公平的比较,我们保持所有其他参数不变。
Tab6中列出了不同分配指标的比较结果。可以看出NWD达到了20.2AP的最佳性能,这说明所提出的NWD更合适对于微小目标的测量和基于NWD的分配策略可以更好地利用现有检测网络在微小目标检测任务上的潜力。基于GWD和基于IOU的指标(即GIoU、DIoU、IoU)的性能不佳,主要是由于它们最初被设计为没有标准化值范围的损失函数。当他们作为基于阈值的标签分配的度量,将引入一个更严重政府样本不平衡问题,降低TOD性能。

6.3.3 消融研究

为了单独验证所提出的模块的有效性,并排除超参数的随机性,我们设计了以下五组消融研究。Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第14张图片
NWD和RKA的单个有效性:在这一部分中,我们通过分别替换FasterR-CNN原始网络中的IOU和基于阈值的锚点分配来验证NWD和RKA的个体有效性(Renetal.,2015)。结果tab7所示.当简单地用NWD替换 IOU时,AP可以从12.8提高到20.2。类似地,当用基于排名的策略替换基于阈值的策略时,则是AP从12.8提高到17.9。此外,当将NWD与RKA结合时,我们获得了21.4AP的最佳性能,这意味着所提出的模块可以相互补充优化。
分配的不同阈值:启发式方法总是为了降低正训练样本的阈值,从而提高对微小物体的正训练样本的数量(Zhangetal.,2018)。事实上,这个简单的技巧可以有效地保证对微小物体获得更多的积极的正训练样本。然而,对于较大的对象,同时引入了低质量的训练样本。在这一节中,我们仔细地调整分配的阈值,并测试尽可能多的组合。然后,我们比较了NWD-RKA与阈值微调的结果。结果tab8所示。我们可以发现,NWD-RKA(21.4AP)的性能超过了所有不同的阈值设置组合。
不同比例的锚点框:我们比较了NWD-RKA检测算法在不同锚点尺度设置下的性能。结果tab9所示。由于AI-TOD-v2是一个专用于TOD的数据集,在小锚点框尺寸为4上,NWD-RKA获得了最好的性能22.2AP。值得一提的是,我们提出的方法在不同的锚点框尺寸下始终保持了较高的性能。这一现象意味着我们提出的方法对不同的锚点框设置具有鲁棒性。因此,NWD-RKA可以直接应用于检测网络中,而不需要进行太多的锚点框微调。为了保证该方法在不同场景下的通用性,我们在不同的任务中默认的锚点尺度设置为8。
不同的超参数值:在我们的设计中有两个超参数。本文通过实验证明了它们在一定范围内的鲁棒性。在设计NWD时,我们使用一个常量的(即,训练的平均对象大小)在归一化瓦瑟斯坦距离。我们还通过实验将超参数设置为一个不同的常数。基础检测器是Faster-R-CNN嵌入RKA。计算结果tab10。我们首先启发式地将设置为AI-TOD-v2的训练集的平均绝对检测目标大小12.7,并得到21.4AP。然后,我们发现,当在一定范围内改变时(从8~24),AP波的值略有升高,且远高于基础算法值。这说明的选择在这个范围内是稳健的。此外,在RKA中还有一个超参数的,它被用于分配给每个实例的正样本的数量。我们将设置为1、2、3、4、6和8来测试其性能。从tab11,我们可以看到,当将设置为2时,可以达到最佳的性能,因此选择2作为默认设置。还可以观察到,不同 k k k下AP波幅度较小(小于1),值得注意的是对超参数的选择(即和)在不同数据集上的一定范围内也具有鲁棒性。关于AI-TODv2、VisDrone2019和DOTA-v2.0的测试结果列在tab10和tab11。在不同的参数下,AP只有微小的波动。为了提高通用性,我们建议将固定为12.7(为了简单起见,将固定为12),并在不同的数据集上将固定为2。
提高特征分辨率:小物体只包含几个像素,它们的特征信息在几次降采样后会被过滤掉。处理这个问题的一个简单方法是提高输入特征的分辨率。在本节中,我们使用Faster R-CNN作为基础检测器,通过用更强的主干(即HRNet(Sun等人,2019))替换ResNet(He等人,2016)来提高输入特征图的分辨率,我们都在相同的HRNet主干下进行了有和没有NWD-RKA的Faster R-CNN实验。结果列在tab4。与使用ResNet-50的Faster R-CNN相比,带有HRNet的Faster R-CNN一起提高了1.7个AP点数。然而,它仍然远低于带有NWD-RKA的ResNet-Faster R-CNN。此外,我们在HRNet的Faster R-CNN实现22.6AP。也就是说提出的NWD-RKA在替换主干网络条件下仍然具有一定的优势。

6.3.4 其他数据集的实验

在不同的数据集中评估该方法的鲁棒性是必要的。因此,我们选择了其他一些也包含大量空中目标检测数据集用于进一步验证,包括:AI-TOD(Wang等人,2021a)、VisDrone2019(Du等人,2019)和DOTA-v2.0(Ding等人,2021)。我们将所提出的NWD-RKA嵌入到Faster R-CNN中(Ren等al.,2015)、Cascade R-CNC(Cai和Vas.,2018)和DetectoRS(Qiao等人,2021)。结果在tab12, tab13和tab14中。在不同的数据集上,所有的检测测试都有显著的改进,具体地说,在DetectoRS上用NWD-RKA取代基于IoU阈值的策略,在AI-TOD、VisDrone2019和DOTA-v2.0上提高了8.6、1.7、1.1AP。值得注意的是,在微小目标的尺度范围有了显著的改善,进一步验证了NWD-RKA在不同场景下在TOD任务上的优越性。
Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)_第15张图片

6.4 可视化

基础检测器和基于NWD-RKA的检测器的一些可视化结果如图9所示。与基础检测器相比,从检测结果中可以观察到一个DetectoRS w/ NWDRKA。具体地说,我们有以下的观察结果。最明显的改进是NWD-RKA可以极大地消除FN(漏检)。FN是基础检测器在检测微小的物体的典型情况,由于缺乏监督信息。这表明,当配备NWDRKA时,基于锚点的检测网络可以从正样本学习到足够的监督信息。此外,RetinaNet从中可以看到大量的FP(误检),这表明RetinaNet不能从大量的候选检测框中对进行正确的分类。令人惊讶的是,NWD-RKA可以正确地处理FP检测,这意味着分配的正负样本的质量更高。

导读:基于目前流行的检测模型加入NWD+RKA的实验对比

你可能感兴趣的:(深度学习论文导读,计算机视觉,人工智能,深度学习)