论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery

Title: You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery

Abstract: Detection of small objects in large swaths of imagery is one of the primary problems in satellite imagery analytics. While object detection in ground-based imagery has benefited from research into new deep learning approaches, transitioning such technology to overhead imagery is nontrivial. Among the challenges is the sheer number of pixels and geographic extent per image: a single DigitalGlobe satellite image encompasses > 64 km^2 and over 250 million pixels. Another challenge is that objects of interest are minuscule (often only ∼ 10 pixels in extent), which complicates traditional computer vision techniques. To address these issues, we propose a pipeline (You Only Look Twice, or YOLT) that evaluates satellite images of arbitrary size at a rate of ≥ 0.5 km^2/s. the proposed approach can rapidly detect objects of vastly different scales with relatively little training data over multiple sensors. We evaluate large test images at native resolution, and yield scores of F1 > 0.8 for vehicle localization. We further explore resolution and object size requirements by systematically testing the pipeline at decreasing resolution, and conclude that objects only ∼ 5 pixels in size can still be localized with high confidence. Code is available at

GitHub - CosmiQ/yolt: You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery

Keywords: Computer Vision, Satellite Imagery, Object Detection

题目:你只看两次:卫星图像中的快速多尺度物体检测

摘要:探测大大范围图像中的小物体是卫星图像分析的主要问题之一。虽然地面图像中的物体检测受益于对新的深度学习方法的研究,但将此类技术过渡到头顶图像是不平凡的。另一个挑战是感兴趣的物体很小(范围仅为~10像素),这使传统的计算机视觉技术变得复杂。为了解决这些问题,我们提出了一种算法(You Only Look Twice,简称YOLT),该算法以≥0.5 km2/s的速率评估任意大小的卫星图像。所提出的方法只需相对较少的训练数据,就能通过多个传感器快速检测到不同尺度的物体。我们以原生分辨率评估大型测试图像,车辆定位的F1>0.8。我们通过以降低的分辨率系统地测试管道,进一步探讨了分辨率和对象大小的要求,并得出结论,只有~5像素大小的对象仍然可以高置信度地定位。代码开源地址:GitHub - CosmiQ/yolt: You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery

关键词:计算机视觉、卫星图像、目标检测

1.引言

自从在ImageNet[13]竞赛中引入卷积神经网络[5]以来,计算机视觉技术在过去几年中取得了长足的进步。大型高质量标记数据集的可用性,如ImageNet[13]、PASCAL VOC[2]和MS COCO[6],有助于推动近实时快速物体检测方面的许多令人印象深刻的进步;其中三个最好的是: Faster R-CNN[12]、SSD[7]和YOLO[10][11]。Faster R-CNN通常摄取1000×600像素的图像,而SSD使用300×300或512×512像素的输入图像,YOLO在416×416或544×544像素的输入上运行。虽然所有这些框架的性能都令人印象深刻,但没有一个框架能达到卫星图像典型的约16000×16000输入大小。在这三个框架中,YOLO在PASCAL VOC数据集上表现出了最高的推理速度和得分.作者还表明,该框架在Picasso数据集[3]和People Art数据集[1]上表现出了优于其他框架(即SSD和Faster R-CNN)的性能,可以高度转移到新的领域。由于YOLO的速度、准确性和灵活性,我们因此将该系统作为我们卫星图像目标检测框架的灵感来源。

由于各种原因,将深度学习方法应用于传统的对象检测管道并非易事。卫星图像的独特方面需要算法贡献来解决与前景目标对象的空间范围、完全旋转不变性和大规模搜索空间相关的挑战。不包括实现细节,算法必须针对以下方面进行调整:

空间范围小  在卫星图像中,受关注的对象通常非常小且密集成群,而不是 ImageNet 数据中典型的大而突出的对象。在卫星领域,分辨率通常被定义为地面采样距离(ground sample distance , GSD),它描述了一个图像像素的物理大小。商业可用的图像从最清晰的DigitalGlobe图像的30厘米GSD到行星图像的3-4米GSD不等。是指对于汽车等小物体,即使在最高分辨率下,每个物体的范围也只有~15像素。

完全旋转不变性  从头顶观察的物体可以有任何方向(例如,船只可以有0到360度之间的任何航向,而ImageNet数据中的树是可靠的垂直的)。

训练样本频率  训练数据相对缺乏(尽管像SpaceNet1这样的努力对改善这一问题是徒劳的)

超高分辨率  输入图像是巨大的(数百兆像素),因此简单地将采样缩小到大多数算法所需的输入大小(几百像素)不是一种选择(见图1)。

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第1张图片

图1: DigitalGlobe在巴拿马运河附近50厘米GSD处8×8公里(~16000×16000像素)的图像。一个416×416像素的滑动窗口切口显示为红色。对于这种大小的图像,有~1500个独特的切片

这项工作的贡献是分别专门解决了这些问题,同时利用了传感器到物体之间相对恒定的距离,众所周知,这个距离通常为 ∼ 400 公里。

第2节详细介绍了标准算法在应用于卫星图像时所面临的挑战。为解决小型密集集群问题,第3.1节介绍了一种新的、更精细的网络架构。第3.2和3.3节详细介绍了我们以原始分辨率拆分、评估和重组任意大小的大型测试图像的方法。关于旋转不变性和小尺寸标注训练数据集,第4节介绍了数据扩充和尺寸要求。最后,第6节详细讨论了算法的性能。

2. 相关工作

事实证明,深度学习方法对地面物体检测非常有效,但对于高空图像应用来说,目前的技术往往还不够理想。例如,成群的小物体(如鸟群)是一个挑战[10],部分原因是上述三种卷积网络方法(YOLO、SDD、Faster-RCNN)都有多个下采样层。此外,这些多个下采样层导致用于对象区分的相对过程特征;如果感兴趣的对象的范围只有几个像素,这就带来了问题。例如,考虑默认的YOLO网络架构,它以32的因子进行下采样,并返回13×13的预测网格;这意味着,如果对象质心间隔小于32个像素,则对象区分是有问题的。因此,我们实现了一种具有更密集的最终预测网格的独特网络架构。这种更精细的预测网格还允许对更小的物体和更密集的集群进行分类。

目标检测算法难以处理卫星图像的另一个原因是,它们很难以新的或不寻常的纵横比或配置来概括物体[10]。由于物体可以具有任意的航向,这种有限的旋转不变性范围很麻烦。我们的方法通过轮换和数据扩充来弥补这种复杂性。具体来说,我们围绕单位圆旋转训练图像,以确保分类器对对象航向是不可知的,并且还以HSV(色调饱和度值)随机缩放图像,以提高分类器对不同传感器、大气条件和照明条件的鲁棒性。

我们还注意到,大尺寸的卫星图像排除了解决上述一些问题的简单方法。例如,对图像进行上采样以确保感兴趣的对象足够大并且足够分散以用于标准架构是不可行的,因为这种方法也会将运行时间增加很多倍。类似地,在图像上运行滑动窗口分类器来搜索感兴趣的对象在计算上很快变得困难,因为每个对象大小都需要多个窗口大小。对于透视,如果目标是DigitalGlobe图像中的一艘10米长的船,则必须评估超过一百万个滑动窗口切口。我们的回应是利用快速目标检测算法,结合大小合理的图像芯片(~200米)上的局部图像插值和多尺度探测器组合,评估卫星图像。

为了证明卫星图像分析的挑战,我们使用标准网络架构(13×13网格)训练YOLO模型,以识别COWC头顶图像数据集[8]的416×416像素切口中的汽车(有关该数据集的更多详细信息,请参阅第4节)。由于对测试图像进行了 100 倍的下采样,使用该网络对大型测试图像(见图 2)进行评估时,FP比例高达 100%。即使是适当大小的图像芯片也会出现问题(再次参见图 2),因为标准的 YOLO 网络架构无法区分中心点相距小于 32 像素的物体。

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第2张图片

图2: 当应用于高架车辆检测时,标准物体检测网络架构的挑战。每个图像使用相同的标准YOLO架构模型,该模型在来自COWC数据集的416×416像素的汽车裁剪上进行训练。

左图:模型应用于一幅 4000 ×4000像素的大型测试图像,该图像经过缩样处理后大小为416×416;图像中的1142辆汽车无一被检测到。右图 模型应用于一个416×416像素的小切面;假阴性率过高的原因是高密度的汽车无法通过13× 13网格进行区分。

3. YOU ONLY LOOK TWICE

自深度神经网络发展以来,数据集一直是计算机视觉领域进步的关键因素。用于通用对象检测的最广泛使用的数据集是PASCAL VOC[29]、MS COCO[30]、ImageNet[31]和Open Images[32]。刘等人[5]对这些数据集进行了深入的讨论。为了避免重复[5]中已经解释的内容,我们将重点关注室内环境中图像的数据集。

Ehsani等人介绍了一个可用的数据集,在[33]中称为DYCE数据集,该数据集包含合成遮挡对象。这些照片是在室内拍摄的。共有11个合成场景,包括5个客厅和6个厨房。每个场景有60个对象,每个图像的可见(至少10个可见像素)对象数为17.5。

为了解决第2节中讨论的限制,我们实现了一个针对头顶图像优化的对象检测框架:你只看两次(YOLT)。我们扩展了Darknet神经网络框架[9],并更新了一些C库,以实现地理空间图像的分析并与外部python库集成。我们选择利用 python 的灵活性和庞大的用户群来进行前处理和后处理。通过更新 C 代码和用 Python 编写的前处理和后处理代码,相关人员无需掌握任何 C 语言知识即可训练、测试或部署 YOLT 模型。

3.1 网络结构

为了降低模型的粗糙度并准确检测密集物体(如汽车或建筑物),我们采用了一种使用22层并以16倍降低采样率的网络架构,这样,一幅416×416像素的输入图像就会产生一个26×26的预测网格。我们的架构受到30层 YOLO 网络的启发,不过这种新架构针对小型密集物体进行了优化。密集网格对于机场等漫反射物体来说是不必要的,但对于停车场等高密度场景却至关重要(见图 2)。为了提高小物体的保真度,我们还加入了一个直通层(见文献[11],类似于 ResNet 中的身份映射[4]),将最终的 52 × 52 层连接到最后一个卷积层上,从而使检测器能够获取该扩展特征图中更精细的特征。

每个卷积层保存最后一个是用泄漏校正线性激活批量归一化的,保存使用线性激活的最后一个层?最后一层提供边界框和类的预测,大小为:Nf=Nboxes×(Nclasses+5 ,其中Nboxes 是每个网格的框数(默认为5),Nclasses 是对象类的数量[10]。

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第3张图片

图3: YOLO框架的局限性(左栏,引用自[10]),以及YOLT为解决这些局限性所做的贡献(右栏)。

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第4张图片

3.2 测试流程

在测试时,我们将任意大小的测试图像划分为可管理的切片,并通过我们训练的模型运行每个剪切。分区通过一个滑动窗口进行,用户可自定义分区大小和重叠度(默认为15%),见图4。我们通过根据模式命名每个切口来记录每个滑动窗口切口的位置:

ImageName | row_column_height_width.ext

例如:

       panama50cm|1370_1180_416_416.tif

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第5张图片

图4: 大尺寸图像的测试程序图,显示整个图 1 从左至右的滑动窗口。右下方图像的重叠部分以红色显示。要完善切口边缘的检测,就必须对这种重叠进行非最大限度的抑制。

3.3 后处理

卫星(或航空)图像的大部分效用在于其绘制全球大面积地图的固有能力。因此,与卫星平台生成的大视场图像相比,小图像片的作用要小得多。因此,物体检测通道的最后一步是将成百上千个检测片拼接成一个最终图像带。

对于每个切片,分类器返回的边界框位置预测值都会根据该切片的行和列的值进行调整;这就提供了每个边界框预测值在原始输入图像中的全局位置。我们对边界框预测的全局矩阵进行非最大抑制,以减少此类重叠检测。

4. 训练数据

训练数据是从三个来源的大图像的小芯片中收集的:DigitalGlobe卫星、Planet卫星和空中平台。标签由每个对象的边界框和类别标识符组成。我们最初关注五个类别:飞机、船只、建筑足迹、汽车和机场。对于不同尺度的物体(例如飞机与机场),我们在第6.2节中表明,在不同尺度下使用两个不同的探测器是非常有效的。

汽车  Cars Overhead with Context(COWC)[8] 数据集是一个大型、高质量的汽车注释数据集,数据来自在多个地方收集的高空图像。数据通过空中平台收集,但视角为天底,因此类似于卫星图像。该图像的分辨率为15厘米GSD,约为目前商业卫星图像最佳分辨率(DigitalGlobe的分辨率为30厘米GSD)的两倍。因此,我们将原始图像与高斯核进行卷积,并将图像尺寸减少一半,以创建相当于30cm GSD的图像。标签只由每辆车质心上的一个点组成,我们在每辆车周围画了一个3米的边界框,用于训练目的。我们保留了最大的地理区域(犹他州)进行测试,留下13303辆贴有标签的训练车。

建筑占地  第二轮SpaceNet数据包括30厘米GSD DigitalGlobe 图像和四个城市的标注建筑占地:这些标签是精确的建筑占地,我们将其转换为包围占地90%范围的边界框。图像分割方法在这一挑战中大有可为;然而,我们探索了YOLT在建筑轮廓检测方面的性能,承认由于YOLT输出边界框,它永远无法实现复杂建筑形状的完美建筑占地检测。在这四个城市之间,有221336栋贴有标签的建筑。

飞机  我们为训练集中总共230个对象在机场上空标记了8张DigitalGlobe图像。

船舶 我们为总共556艘船在沿海地区拍摄的三张DigitalGlobe图像贴上标签。

机场  我们在37张Planet图像中标记机场,用于训练目的,每个芯片都有一个机场。对于机场大小的物体,需要进行一些下采样,因为即使在低分辨率的行星图像中,跑道的长度也可能超过1000像素;因此,出于训练目的,我们将行星图像的样本减少了四倍。

按照计算机视觉标准,飞机、机场和水上交通工具的原始训练数据集相当小,更大的数据集可能会提高推理性能,详见第 6 节。

我们使用随机梯度下降进行训练,并保持[11]的许多超参数:每个网格5个检测框,初始学习率为10−3,权重衰减为0.0005,动量为0.9。在单个NVIDIA Titan X GPU上进行训练需要2-3天。

5. 测试数据

为了确保评估的稳健性,所有测试图像都来自不同的地理区域,而不是训练示例。对于汽车,我们保留了犹他州最大的地理区域进行测试,生产了19807辆测试汽车。建筑足迹分为75/25列/测试,留下73778个测试区域。我们为总共74架飞机标记了四张机场测试图像。四艘船的图像被标记,产生771艘测试船。我们的机场数据集较小,有十张Planet图像用于测试。各类别的列车/试验划分见表2。

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第6张图片

6. 目标检测结果

6.1 网络结构

最初,我们尝试训练一个分类器来识别上述所有五个类别,包括车辆和基础设施。我们注意到在这个例子中出现了一些虚假的机场检测(见图 6)、因为向下采样的跑道在错误的比例下看起来与高速公路相似。

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第7张图片

图 6:将通用模型应用于两个不同比例尺(200 米和 1500 米)的 DigitalGlobe 图像的不良结果。飞机为红色。青色方框标记的是对跑道的虚假检测,部分原因是小尺度线性结构(如高速公路)造成的混淆。

6.2 尺度混淆减弱(Scale Confusion Mitigation)

有多种方法可以解决图 6 中的误报问题。回顾第 4 节,在这项探索性工作中,我们的训练集仅由几十个机场组成,远远小于深度学习模型的通常规模。增加训练集的规模可能会改善我们的模型,尤其是在背景变化很大的情况下。另一种方法是使用后处理来去除任何不正确比例的检测(例如,大小为 50 米的机场)。另一种方法是简单地建立双分类器,每个相关比例尺一个。

我们选择利用卫星图像中的尺度信息,并运行两种不同的分类器:一种是针对车辆+建筑物进行训练的,另一种是仅针对机场进行训练的。在下采样的图像上运行第二机场分类器对运行时性能的影响最小,因为在给定的图像中,200米芯片大约是2000米芯片的100倍。

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第8张图片

图 7:盐湖城上空600×600米航空图像上的汽车检测性能(ImageID=21),GSD为30厘米,有1389辆汽车。假阳性显示为红色,假阴性显示为黄色,真阳性显示为绿色,蓝色矩形表示所有真阳性检测的基本事实。对于该测试图像,F1=0.95,GPU处理时间<1秒。

6.3 双重分类器结果

对于大型验证图像,我们在两个不同的尺度上运行分类器:200米和2500米。第一个规模是为车辆和建筑设计的,较大的规模是为机场等大型基础设施优化的。我们将验证图像分解为适当大小的图像芯片,并在适当的分类器上运行每个图像芯片。来自许多图像芯片和多个分类器的无数结果被组合成一个最终图像,并且通过非最大抑制来合并重叠检测。我们发现,在0.3和0.4之间的检测概率阈值产生了我们的验证图像的最高F1分数。

我们将 "真阳性 "定义为 "交并比"(IOU)大于给定阈值。0.5 的 IOU 通常被用作正确检测的阈值,但在 ImageNet [13] 的等式 5 中,我们为车辆选择了更低的阈值,因为我们要处理的是非常小的物体。对于 SpaceNet 建筑足迹和机场,我们使用 0.5 的 IOU。

表3显示了每个对象类别在所有测试图像上的对象检测性能和速度。YOLT在机场、飞机和船只上表现相对较好,尽管训练集规模较小。YOLT没有针对建筑占地提取进行优化,尽管它在SpaceNet数据集上的表现有一定的竞争力;最近的SpaceNet挑战赛的最高得分获得了0.692的F1得分,而YOLT的0.61分使其进入前三名。我们根据GPU运行推理步骤的时间来报告推理速度。推理在GPU上快速运行,速度约为每秒50帧。目前,预处理(即,将测试图像拼接成更小的切片)和后处理(即将结果拼接回一个全局图像)并没有完全优化,而是在CPU上执行,这增加了≈2的运行时间因子。推断速度转化为在华盛顿特区大小的区域内定位所有车辆的运行时间<6分钟,在该区域内定位机场的运行时间小于2秒。DigitalGlobe的WorldView3卫星3每天最多覆盖68万平方公里,因此以YOLT推断速度,一个16 GPU的集群将对卫星图像提供实时推断。

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第9张图片

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第10张图片

图 8:YOLT分类器应用于SpaceNet DigitalGlobe 50 cm GSD图像,该图像包含飞机(蓝色)、船只(红色)和跑道(橙色)。在这张图中,我们注意到以下F1分数:飞机=0.83,船只=0.84,机场=1.0。

6.4 详细性能分析

在 COWC 数据集的九张犹他州图像中,有∼20,000辆汽车的大型测试集,因此可以进行详细的性能分析。大部分汽车(>13000辆)位于盐湖城中心的图像中,因此我们将该图像分割成16个较小的600×600米区域,以均衡每张图像的汽车数量。我们移除了一个场景中只有61辆汽车的测试场景,留下了23个测试场景,每个测试图像的平均计数为1130±540。我们应用经过训练的YOLT模型在这些测试场景中寻找汽车。

在图9中,我们显示了每个场景的F1分数,以及汽车计数的准确性。在商业领域,特定地区的总汽车数量可能比F1得分更有价值。因此,我们将每个场景的预测汽车数量计算为地面实况数量的一部分(Fc=Npredicted/Ntruth )。COWC [8] 作者试图计算(而非定位)测试图像中的汽车数量,结果误差为 0.19%。在 COWC 数据上,YOLT 的总计数误差为 0.90%。

图9显示,典型城市场景的F1分数和地面实况分数都很高(如图7中的 ImageID=21)。 图9中最差的离群点是ImageID=2,F1得分为0.67,存在 2860 辆汽车。

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第11张图片

图9:上图:每个 COWC 测试场景的 F1 分数。(F1 = 0.90±0.09). 下图 检测数量占地面实况数量的百分比(Fc = 0.95 ± 0.05. 点的颜色与测试场景相对应,多个红点表示盐湖城中心的切点。橙色虚线表示加权平均值,黄色带表示加权标准偏差。

7. 分辨率性能研究

由于 COWC 数据集[8]中物体大小的一致性,可以对分辨率进行详细研究。为了研究分辨率对物体检测的影响,我们用高斯核对原始的 15 厘米图像进行卷积,并缩小图像尺寸,以创建[0.30、0.45、0.60、0.75、0.90、1.05、1.20、1.50、1.80、2.10、2.40、3.00] 米的额外训练和测试数据集。

最初,我们在单个模型(在0.30米处训练)上测试了多分辨率测试数据,在图11中证明了该模型外推到多分辨率的能力较差。随后,我们为每个分辨率训练一个单独的模型,总共十三个模型。创建低分辨率(例如2.4m GSD)的高质量标记数据集是可能的,因为我们从已经标记的高分辨率15cm数据中向下采样;典型的低分辨率数据很难以高精度进行标记。

对于大小在 3 米以下的物体,我们可以从图 13 中看到,物体检测性能从 20 像素大小物体的 F1 = 0.92 下降到 1 像素大小物体的 F1 = 0.27,平均误差为 0.09。有趣的是,当物体大小从 20 像素缩小到 5 像素时(GSD 从 0.15 米缩小到 0.60 米),F1 分数仅下降了 ≈ 5%。图 11 的曲线衰减速度远远快于图 13 和图 14,这说明在高分辨率下拟合的单一模型不如在每个分辨率下训练的一系列模型。

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第12张图片

图10:COWC[8]训练数据经卷积并调整为不同分辨率,原始分辨率为 15 厘米(左上图);蓝色为边界框标签。

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第13张图片

图11:0.3 米模型在不同分辨率下的表现:23 条细线显示了每个测试场景的表现;这些细线大多紧紧围绕平均值(红色实线表示)。

8. 结论

目标检测算法最近在ImageNet风格的数据集中定位对象方面取得了很大进展。然而,这种算法很少能很好地适应卫星图像中的物体大小或方向,也不是为处理数百万亿像素的图像而设计的。

为了解决这些局限性,我们采用了一个完全卷积神经网络管道(YOLT)来快速定位卫星图像中的车辆、建筑物和机场。我们注意到,由于大小特征(如高速公路和跑道)之间的混淆,联合分类器的效果不佳。在不同尺度上训练双分类器(一个用于建筑物/车辆,另一个用于基础设施),结果要好得多。

根据不同的类别,该管道产生的物体检测 F1 分数≈ 0.6 - 0.9。虽然 F1 分数可能达不到许多读者习惯的 ImageNet 竞赛水平,但卫星图像中的物体检测仍是一个相对新兴的领域,具有独特的挑战性。此外,对于监督学习方法而言,我们大多数类别的训练数据集相对较小,如果对检测结果进行进一步的后处理,F1 分数还有可能提高。

我们还展示了在一个传感器(例如DigitalGlobe)上进行训练,并将我们的模型应用于另一个传感器的能力(例如Planet)。我们的研究表明,至少对于从高空俯视的汽车而言,物体大小≥5像素的物体检测得分F1 > 0.85。检测管道能够以原始分辨率评估任意输入尺寸的卫星和航空图像车辆和建筑物的处理速度为每分钟≈30平方公里,机场的处理速度为每分钟≈6,000平方公里。按照这样的推理速度,16个GPU 集群可对DigitalGlobe WorldView3 卫星馈送进行实时推理。

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第14张图片

 

图12:在 COWC 数据同一120×120米盐湖城切面上不同分辨率的物体检测结果。左侧切面的 GSD为15厘米,F1得分为0.94,右侧切面的GSD为 90 厘米,F1得分为 0.84。

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第15张图片

图13:地面样本距离为0.15−3.0米(下轴)的物体检测F1分数,对应于20−1像素(上轴)的汽车尺寸。在 13 种分辨率中的每一种分辨率下,我们使用在该分辨率下训练的唯一模型对测试场景进行评估。23 条细线显示了各个测试场景的性能;这些细线大多紧紧围绕平均值(蓝色虚线表示)。红色条带显示 ±1 STD。我们对数据拟合了一个片断线性模型,如蓝色虚线所示。在 0.61 米拐点(大青色圆点)以下(对应 5 像素大小的小车),F1 分数缓慢下降,斜率为 ∆F1/∆GSD =-0.10;在 0.60 米至 3.0 米 GSD 之间,斜率更陡,为-0.26。0.15 米、0.60 米和 3.0 米 GSD 的 F1 分数分别为 0.92、0.87 和 0.27。

论文阅读--You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery_第16张图片

图14:预测的汽车数量与地面实况的比例,每个分辨率(下轴)和对象像素大小(上轴)都有一个唯一的模型。分数为1.0意味着预测的汽车数量正确,而如果分数低于1.0,则预测的汽车太少。细带表示 23 个单独场景的表现,蓝色虚线表示加权平均值,红色带表示 ±1 STD。我们对数据拟合了一个片断线性模型,如青色虚线所示。在 0.86 米的拐点(大的青色圆点)以下,斜率基本持平,斜率为-0.03;在 0.87 米至 3 米 GSD 之间,斜率较陡,为-0.20。对于比 0.86 米更高的分辨率,预测的汽车数量与地面实况的误差在 4% 以内。

你可能感兴趣的:(paper,论文阅读,目标检测,人工智能,计算机视觉,遥感检测,YOLO)