“Urban feature analysis from aerial remote sensing imagery using self-supervised and semi-supervised ”
Abstract:
使用计算机视觉分析俯视图像是一个在学术文献中受到相当关注的问题。在这个领域运行的大多数技术都是高度专业化的,并且需要对大型数据集进行昂贵的手动注释。这些问题在本文通过开发一个更通用的框架来解决,该框架结合了表示学习的进步,这使得在分析具有有限标记数据的新类别图像时具有更大的灵活性。首先,基于动量对比机制创建了未标记航空影像数据集的稳健表示。随后通过构建具有少至 200 个标记图像的准确分类器,专门用于不同的任务。从 6000 万张未标记的图像中成功地在 10 年内对城市基础设施演变进行低水平检测,证明了本文的方法在推进定量城市研究方面的巨大潜力。(先自监督,后半监督)
Introduction:
深度学习方法 [1] 的进步使得能够 以完全自动化的方式 分析非常大的数据集,包括那些 包含俯视和卫星图像 的数据集。由于改进的捕获和存储技术 以及 处理能力的进步,高清航空影像数据集变得越来越可用。结合起来,这可以对更高分辨率的遥感场景进行详细分析。传统的深度学习过程 遵循数据收集、数据标记、模型训练 和 对未标记数据进行推理的步骤,自动为未标记数据分配标签。
由于可用数据的海量,计算机视觉技术特别适合有效地处理它们以用于不同的任务,例如分类、目标检测和语义分割。在机器学习中,对标记数据进行操作以构建预测模型的 监督学习 已被广泛用于利用航空图像中的信息。当提供大量标记数据时,监督学习技术表现出色。然而,这些数据需要 手动标记,这是 劳动密集型的,因此成本高昂且难以扩展。
相比之下,未标记的数据(例如卫星图像)更容易获得并且数量更多。几种学习范式已经研究了如何更有效地利用未标记的数据源,包括自监督学习和半监督学习。
航空影像技术的最新进展导致可用的高空影像数量迅速增加。这种增长主要是由于图像捕获的分辨率更高(例如 - 以 10 厘米分辨率捕获的图像将产生比以 100 厘米 (1m) 分辨率捕获的图像多 100 倍的数据。但是,为了利用这些数据,存储和处理能力也必须跟上。因此,分析流程必须能够处理此类数据,同时保持 分析准确性 和 速度 等关键性能指标。
高分辨率航空影像捕捉详细的城市特征,从而能够潜在地识别重要的城市特征 [2],例如大规模的自行车基础设施。本文介绍了使用更小的标记图像集(少至 200 张图像)有效探索如此大量数据(扩展到 6000 万张图像)的方法。在澳大利亚的 15 个城市引入、评估和部署了利用自监督、半监督的方法。
自监督学习:
自监督学习通过设置一个权重任务来从未标记的数据集中提取知识,在前置任务上,模型可以以监督的方式进行预训练 [3]。在自监督工作流中,重点是自监督前置任务学习的 中间表示,而不是最大化预测准确性。这种中间表示用于目标检测等下游任务,期望在前置任务期间学习的表示从语义和结构的角度来看是稳健的。【自监督定义】
目前有大量工作专注于使用这些技术 学习与任务无关的表示。例如,Noroozi 和 Favaro [4] 通过选择几个相邻的像素块来制定拼图任务。改组块后,模型的任务是恢复正确的空间顺序(见图 1a)。此任务需要基于图像中可见的对象和细节进行高级推理。因此,在预训练任务中表现出色的模型可能包含有用的图像表示。类似地,Doersch 等人 [5] 设计了检索与所选图像部分相比的图块的相对位置的任务(见图 1b)。
重要的是,虽然自监督学习倾向于 减少训练神经网络的标记要求,但它并没有提供标记大型数据集的方法。这是因为自监督学习 通常为模型提供伪标签 以构建世界的初始表示,这有助于 减少它需要查看的标记数据点的数量 以构建关于特定类别的假设,但不必须标记与这些特定类别相关的数据点。
半监督学习:
半监督学习对应于机器学习技术的类别,其中大量未标记数据与较小的标记数据集合一起可用。这些方法尝试 使用少量标记数据 以迭代的方式 将标签分配给大量未标记数据。因此,标记数据集在分析过程中会增长,从而产生更准确的模型。
先前的工作使用半监督方法(在某些研究领域也称为 boot-strapping引导方法)通过 生成更多训练数据 来提高预测模型的预测准确性。然而,很少有人以完全自动化的方式运行。 Yarowsky [6] 在这种自行学习的模型范式中的一项早期工作是研究使用 标记句子 和 未标记数据 来执行词义消歧的可能性。一些作品还探讨了这种技术在计算机视觉中的适用性。例如,Cui 等人 [7] 通过合并来自他们模型的高置信度预测 来迭代地增长他们的数据集。但是,每个步骤都采用了手动审查过程。 Huang 等人 [8] 使用基于形态和颜色的指数,使用预定义的公式,以及公开可用的信息源来生成训练集 并将图像分类为建筑物、道路、土壤、水、阴影和植被的类别。分类方法的一个关键问题通常是假设类是互斥的。然而,在城市场景的航拍图像中,道路、植被、土壤、水和建筑物可以共存于同一图像中。
一般来说,半监督学习策略带来的关键改进可以包含在两个层面:
• 模型层面: 涉及到模型训练过程中的改进,并专注于 从较少的初始标记图像样本中 为模型提供更稳健的表示。
• 数据层面: 涉及半监督标记过程本身的改进,允许通过 启发式 和 形态学特征提取 等技术 进行独立于模型的改进。
模型级别的改进通常包括即使在半监督学习范围之外也很有用的技术。事实上,其中许多技术都用于改进监督学习模型。例如,Miyato 等人 [9] 使用 对抗训练,Siddharth 等人 [10] 使用解耦特征学习和增强策略,例如 Cubuk 等人 [11] 中引入的 RandAugment 也常用。
数据级别技术在模型范围之外运行。这些增加了模型在没有人工干预的情况下正确标记未标记图像样本的概率。例如,Kothari 和 Meher [12] 使用未标记的邻域信息来提高模型性能。
由于这两种技术 适用于不同的级别,因此还可以 将它们重叠 以进行潜在的组合改进。
半监督学习中的大多数工作都集中 在水平视角中捕获的图像(由相机在非航空环境中生成的图像),因为大量的标记数据 使得模型评估变得更加容易。通过将大部分数据集视为未标记,仍然可以 使用小型标记数据集 轻松评估模型行为,同时还可以根据需要 提供非常稳健的准确度、精确度 和 召回指标。使用未标记的数据集只能提供对此类性能指标的估计,因为大部分数据集的真值是未知的。然而,这种类型的分析更准确地将该技术的使用 与野外未标记的数据集相匹配。
表 1 包含基于标记集大小、视角和未标记集大小的此类技术的比较。此比较表明模型 使用最少数量的标记图像 而不是 与最佳结果相对应的数量报告的结果。
许多技术根据用作标记数据的未标记数据的百分比(例如,1% 的数据用作标记数据)来比较性能。然而,这不一定代表注释工作,它是标记图像的绝对数量的函数。由于评估主要是使用被视为未标记数据的标记数据进行的(通过从模型中隐藏标签),所以这样做很简单。但是,对于在野外使用新的未标记数据集,数据注释工作通常是限制因素。此外,大多数技术根据训练集大小报告性能,以未标记/总集大小的百分比形式报告,而忽略了验证数据的标记要求。在本文中,一个主要目标是限制总标签要求,并旨在使用较小的验证集。
Active learning:
在机器学习中,主动学习是指 模型可以 迭代地 查询人类用户 关于输入数据子集的真值 的一类技术。然后根据用户的输入,模型执行额外的学习以提高其预测准确性。这需要在学习过程的每次迭代中进行人工干预。主动学习已成功用于多种任务,包括晶体结构预测 [16]、车辆检测 [17] 和面部识别 [18]。通过使用oracle 或 已注释的数据集进行评估,这些方法在理论上运行良好。然而,Settles [19] 认为,在实践中尝试引导新数据集时,在注释更多图像之前 等待模型训练完成通常是不省时的。半监督学习和主动学习之间的一个关键区别在于,在半监督学习中进行注释的代理是一个自动化模型,而在主动学习中它通常是一个人。
overhead imagery 高空影像的应用:
高空(卫星和航空)图像 已在先前的研究中用于各种应用。城市肌理的特征为探索当代社会的紧迫问题提供了重要的指引。例如,从高分辨率卫星图像中提取的信息已被用于 估计非洲国家的贫困 [20] 并提供灾难和危机管理支持 [21]。此外,它已被证明对于推断人口规模 [22]、评估土地覆盖变化 [23] 以及 通过农作物绘图 监测粮食安全 [24] 很有价值。除了图像之外,卫星遥感还可以对空气污染 [25]、植被变化 [26] 以及 使用夜间灯光作为代理指标的经济活动进行全球分析 [27]。
上述研究提供了 空间观测 在探索和理解 当代社会问题对空间组织的影响 方面的巨大潜力的证据。虽然一些研究隐含地使用卫星图像中的特征来寻找相关证据,但其他研究则纯粹专注于从图像中提取特征。重要的是,特征检测的主要任务可以导致 对环境特征的详细了解 并 增强研究结果的可解释性。在这种情况下,可以将任务表述为 目标检测 问题。该研究方向已被各种研究采用,通常专门用于检测卫星图像中可见的单个对象类别。
例如,Vakalopoulou 等人 [28] 和 Yuan [29] 开发了用于建筑物检测的算法。此外,许多研究已经探索了从卫星图像中提取道路网络的方法 [例如,30、31、32]。 Wang 等人 [30] 通过预测卫星图像中的道路方向并通过分析相邻位置的图像来构建网络来实现这一点。Zhang 等人 [31] 创建了一种基于 U-Net [33] 的图像分割方法来提取道路网络。还可以检测道路网络的更详细特征,例如特定的交叉口设计 [34]。卡达穆罗等[35] 使用自动编码器 [36] 和长短期记忆神经网络 [37] 的组合从卫星图像中评估道路质量,以提取和分析特征。此外,Chen 等人 [38] 设计了一种可用于检测道路上车辆数量的方法。图 2 提供了其中一些方法的说明。
Objective:
在过去的几十年里,卫星遥感技术的进步 极大地提高了 卫星图像的质量。通过使用飞机进行航空摄影,进一步 提高了图像分辨率,从而提高了 高分辨率高空图像数据集 的可用性。高清航拍图像中的额外细节为 提高目标检测方法的准确性 提供了机会。此外,它允许检测 以前无法从卫星图像中检测到 且 难以收集的 新目标类别。例如,不常见类型的基础设施(如自行车基础设施)在现有数据集中表现不佳或不完整,但可以 使用航空影像进行分析。
除了利用输入数据的改进之外,本文还探索了 目标检测的新方法。如上所述,当前的目标检测方法要么高度专业化地从环境(例如建筑物或车辆)中 提取单个特征,要么 一次检测多个类别,并需要大量的手动注释。因此,本文研究中解决的差距是 缺乏一种 资源高效的 通用方法,可以 提取更完整的特征集 来描述单个图像中的环境。正如 Mnih 和 Hinton [32] 所指出的,使用无监督学习方法进行预训练可以大大提高模型的准确性,为开发这种通用方法提供了机会。
这项工作的主要动机是 启用可扩展的流程,以 简化数据收集,以便 以可扩展的方式 跨不同基础设施类别 进行预测分析。在可能的情况下,流程已根据以下目标进行了优化:
• 最大限度地减少人工注释工作。
• 轻松添加更多类的灵活性。
Methodology:
数据收集:
虽然现有方法已经明确探索了许多与道路相关的基础设施分析,但使用航拍图像探索自行车基础设施的效果很差。此外,自行车基础设施通常使用专门的符号和彩色车道明确划分,这使其能够用作定义明确的基础设施类型,以便最初使用航空影像分析工作流程进行探索。因此,在对此类基础设施进行初步分析的同时,还探索了几种其他类型的基础设施和城市特征,以突出已开发流程的普遍性。
为了探索城市环境中的自行车基础设施,通过观察研究获得了标记图像的初始样本 [39]。 如果骑自行车的人同意参加,则会预约将 GPS 跟踪传感器安装到他们的自行车上。数据收集包括记录每位参与者长达 6 小时的骑行视频片段和相关的 GPS 数据。参与者被要求记录他们参加的任何自行车运动,并像往常一样骑车。
自监督表示学习:
如 1.1.1 中所讨论的,自监督学习技术 允许使用 未标记的数据集 来构建数据集中 图像的 任务无关的表示。然后可以将此表示用于其他下游任务。本文使用自监督学习技术的 动机 是:
• 在大部分数据未标记的数据集的 预测准确性方面 具有良好的扩展性。
• 允许通过迁移学习 或 在现有表示之上构建一个单网络层 来快速创建分类器。
• 允许在多个基础设施识别任务中 重复使用 单个学习到的表示,从而允许 大量计算工作 成为 前端加载和一次性的。
进行了一项实验来评估此类技术用于高空图像和地图图像的适用性,这些技术传统上用于从水平视角拍摄的图像。
作为初始选择步骤,SimCLR [40] 和 Momentum Contrast (MoCo) [41, 42] 与 卷积自动编码器 (AE) 一起进行了评估。使用 200 个城市的卫星图像数据对 [43] 中的城市预测任务进行了评估。 MoCo (95%) 的验证准确度最高,而 SimCLR (24%) 和 AE (20%) 的表现明显更差。由于 GPU 内存方面的计算资源限制,利用原始论文 (8192) 中报告的 SimCLR 的大批量来构建自监督表示是有问题的。相反,为了评估,必须使用更小的批量大小 (64)。原始论文讨论了表示学习批量大小作为学习一般表示的重要参数,因为它会影响用于自监督学习的前置任务的难度。由于 MoCo 以可管理的批量大小 (256) 提供了相当好的结果,并且之前已成功用于遥感图像[44],因此选择 MoCo 进行未来的实验工作。
为了进一步验证 MoCo 在这个用例中的效用,本文参考了 [45]。
(Self-supervision. remote sensing and abstraction: Representation learning across 3 million locations)
Seneviratne 等人 [45] 进行了一项实验,以验证 MoCo 的适用性,并确定该方法对看不见的类别(城市)的可扩展性。使用了之前讨论的城市预测任务,但在 200 或 1667 个城市上进行了表示学习(预训练步骤),而模型训练 和 测试 是在两种设置下进行的:200 个城市和 1667 个城市。对于 200 个城市,使用了与预训练相同的 200 个城市,以检查 表示 覆盖 在预训练数据本身中捕获的 任务或类别 的能力。通过对 200 个城市的预训练和对 1667 个城市的训练/评估,评估了模型在表示先前见过的类别和未见过的类别方面的一致性。这个结果很重要,因为 表示的类独立 或 通用性质 对于 允许跨具有多个类的其他问题域(例如不同类型的基础设施)的可重用性至关重要。预训练和训练是在 ResNet50 架构上进行的,批量大小为 256。对于训练,随机梯度下降使用了 30 的高学习率,因为只需要训练一个层(与以前基于自我、监督的研究中采用的标准工作流程相匹配)。表 3 中的详细结果表明,使用自监督 扩展到 预训练表示以前未见的 新类别的巨大潜力。
Ablation on using self-supervision:
对上述工作流程进行了消融测试,以验证其对航拍图像的有用性。这是通过从第 2.1.1 节中提到的航空数据集中 对两个类别(自行车基础设施 与 其他)分别采样 100 个图像 用于训练 和 1000 个图像用于验证 来实现的。然后 按照 三个独立的配置 构建 和 训练 ResNet50 模型 来完成这项任务。
• 第一个是使用 ImageNet[46] 中针对 ResNet50 的预训练权重 进行实例化,这是计算机视觉中常用的方法。 本实验的一个目的是 评估 这种技术 与高空图像一起使用的适用性。一个全连接层被训练用于类预测,并被放置在 ResNet 网络的最终瓶颈层之上(除了类的数量外,与 ImageNet 训练相同)。
• 第二种配置 使用了 由来自航空影像数据集的 100,000 张未标记图像构建的 预训练表示。使用这些预训练的权重,而不是从预训练的 ImageNet 模型加载的权重。
对于这两种配置,ResNet 的层都被冻结,并且相应的权重在训练期间不会更新。这确保了 模型被迫仅依赖其预训练的表示 作为特征提取器,同时 仅学习与手头任务相关的非常高级的抽象概念。随机梯度下降使用 30 的高学习率,因为只训练一个线性层。
• 第三种配置 使用在第二种配置中学习的预训练表示,但将其用于端到端迁移学习。在这种配置中,ResNet 的所有权重都会在训练过程中更新,而在其他配置中并非如此。 0.001 的学习率与随机梯度下降一起使用,以最小化此配置下预训练权重的变化。这种低权重旨在 通过 仅执行小的调整 而不是 对现有特征进行大的转变 来最大限度地 最小化模型中预先学习的特征的破坏。神经网络经过 200 个 epoch 的训练,具有最佳验证性能的检查点用于报告性能。结果在第 3.1.1 节下的表 5 中。
Characterizing self-supervised performance 描述自监督的性能 :
作为基于自监督表示的迁移学习的初步评估,对基于 从冻结的MoCo表示 进行迁移学习优化的ResNet50 通过实验进行了评估。结果见表6。这个实验的目的是 更好地描述 建立在预训练工作流上的两种配置的性能。训练集、验证集和测试集的完整数据集分别代表两个类,包含33,337张图像。这些航空图像是从已知有自行车基础设施的地区的大量标有标签的道路图像中随机选择的。包含骑行基础设施的图像被人工过滤,其中18,642张图像包含骑行基础设施,14,695张图像不包含任何骑行基础设施。所有实验均采用 ResNet50 体系结构,并选取验证精度最高的模型作为最终模型。对于“Frozen”配置,学习率为30,批次大小为4,使用随机梯度下降,而对于“Transfer”配置,学习率为0.001,批次大小为16,使用随机梯度下降。通过测试不同配置的训练和验证集大小,预期可以 更好地理解 更大的训练集大小下的 模型性能缩放。这反过来又有助于确认表5中的结果,同时指出解决这种性质的任务 所需的手动注释的潜在阈值。数据集的总体大小保持固定,以更准确地反映 使用模型从未标记图像池 迭代增长数据集的实际情况:随着更多的图像从未标记数据集中移出,未标记图像集的大小将缩小。结果见3.1.2节下的表6。
Semi-supervised learning:
半监督学习被探索为一种 生成更准确模型 的方法,以及创建能够最大限度利用可用的大型数据集的工作流。
在这方面使用了两种主要配置,训练细节与之前的实验大体一致:Frozen 和 Transfer。本节的主要重点是探索 允许模型工作流的训练集不断扩展 的技术,从而创建更准确的模型。这创建了一个正反馈循环,可以 通过最少的手动调整 来自动标记和处理整个数据集。
Initial semi-supervised experiment:
为了评估半监督学习的适用性,使用上述配置进行了实验。这些配置在与第 2.2.2 节相同的 33,337 张图像数据集上针对单个任务(循环基础设施分类)进行评估。结果可在第 3.2.1 节下的表 7 中找到。
Semi-supervised consistency 半监督一致性:
作为后续实验,将 持续的半监督学习的一致性 作为单类固定数据集实验进行探索。使用基于优先级队列的实现 来跟踪来自测试集的前 500 个最高和最低的 自行车符号的置信度预测,以合并到训练集中。验证集固定为每张 1000 张图像。使用来自 Frozen 配置的迁移学习对 bootstrapping 方法进行了持续评估,从每类 1000 个训练和验证图像开始,步长为 500。结果在第 3.2.2 节下的表 8 中。
使用 Frozen 配置分析多个类:
虽然之前的实验只是单类(例如自行车符号分类),但本实验旨在 以更通用的方式 评估该方法。这方面的一个实际限制是 尝试许多不同任务的图像注释要求。为了充分利用有限的注释器时间,每个任务每个类限制为 200 个注释,训练集和验证集各有 100 个图像。和以前一样,这两个类对应于 “任务 Task”类 和 “背景Background”类。
这种实验设置的主要原因是 多个基础设施类很可能出现在同一个图像中。因此,通过创建二进制分类任务,本文能够以与 目标检测器类似的方式 在同一图像上重叠来自多个模型的注释,而无需为不同任务生成边界框,因为这将 严重限制 注释器探索多个类的 时间可用性。在 100 张训练图像的限制内,先前的实验(第 2.2.1 节)表明 Frozen 配置表现最好,并且在这方面 100 张图像的验证集应该足够了。提供了在训练和验证中对每个类别的 100 个图像进行训练的 Frozen 配置的评估,以比较该方法在每个任务上的基本性能。使用 Frozen 配置是因为它有助于提供基准性能水平以进行比较。
此外,由于使用了高学习率,它还有一个额外的好处是可以非常快速地训练。报告的百分比对应于所调查类别的精度。在这组实验中没有检测到假负样本。评估是对 从 按置信度排序的 每个位置的 前 1000 个预测中 均匀抽取的 100 个图像的随机样本进行的。该实验的结果可以在第 3.2.3 节中找到。
使用 archival半监督学习 的自动分析:
该实验探索了 以 使用位置的历史图像 为中心的 工作流程的开发,以提高模型的准确性。特别是,主要目标是 通过 使用历史图像 作为 数据增强/半监督学习策略,以第 2.3.3 节的结果为基础。
为此,利用了手头任务的几个关键语义。这种方法的主要观点是 基础设施是静态的:如果它目前在某个位置可用,它很可能在最近的过去就存在于该位置。还可以合理地预期,如果图像摄于较早的日期而不是较晚的日期,则基础设施将减少,这只是因为基础设施可能是在中间日期建造的。与背景类相比:如果特定图像不包含某些基础设施,那么它过去不太可能存在:有效的规划方案意味着 城市和其他基础设施 通常提前规划好,短期内剧烈的变化是不寻常的。
因此,就某一地点的历史图像作出以下假设:
将模型视为 “任务”类检测器,false positive 误报干扰因子 将是“背景”类的图像被错误地分类为属于“任务”类(与误报相同)。设 Φ 是训练集中 所有背景图像位置的 所有历史图像的类别。然后,考虑集合 Θ ⊂ Φ,其中包含来自模型的所有干扰因子,该模型对 Φ 中包含的图像进行推理。集合 Θ 是当前模型学习的非常有用的数据集,因为模型无法正确分类它们,尽管在背景类的训练集中看到了前面的图像。
此外,较新的干扰因子 会比旧的干扰因子 更有用,因为可以预期 较新的图像在结构上看起来与当前的图像更相似,因此 包含更多有趣的特征 以包含在背景类中(相反,例如,很久以前的未建区域,可能不会为背景类增加太多预测价值)。请注意,如果交换“任务”和“背景”类,则此逻辑不一定可交换:正在调查的基础设施可能是最近构建/绘制的,因此可能不一定被错误分类为“背景”类(因为如果“任务”类不存在于图像中,根据定义,它属于“背景”类)。从概念上讲,这类似于机器学习中的 提升 boosting[47],因为 被模型错误分类的图像 被分配到训练集中的权重增加,从而增加了它们在对模型决策边界的贡献方面的重要性。
设ΦT为训练集位置 对应的所有历史图像的集合,ΦB为 背景位置 对应的所有历史图像的集合,Φ=ΦT∪ΦB。请注意,根据定义,最新的可用图像也算作历史图像,因此将包含在这些集合中。由于是标记位置的历史图像,显然集合 ΦT , ΦB 包含模型可以以监督方式学习的图像。然而,并不是所有的图像都同样有用或可以学习。因此,为每个单独的历史图像分配权重可以控制训练过程(当分配权重为零时,图像基本上不会对训练过程产生影响)。因此,手头的问题可以定义如下:
设 ΦiT 和 Φj B 对应于上述集合,其中 i, j 对应于任意排序(索引)。然后让每个训练样本的个体损失由函数 L(x) 确定,该函数会将神经网络中使用的损失函数应用于 x 的相应输出。那么,整体损失函数变为:
其中 αiT ∈ N 对应于个体历史 任务权重,αj B ∈ N 对应于个体历史 背景权重。不失一般性且为简单起见,让排序 ΦiT 和 Φj B 的前 N 个元素设置为每类 N 个图像的初始人类标记训练集的任意排序。由于模型以半监督方式训练,数据组成的主要差异由整个数据集上的不同 α 值跟踪。请注意,α = 0 的图像对模型训练没有贡献,在训练过程中可能会被忽略。
定义以下操作是为了模块化半监督学习过程的工作流程,以提高使用 archival 档案图像的模型的性能。需要注意的是,置信度指标是针对“任务”类定义的。置信度度量对应于特定图像属于“任务”类的概率,并且与图像属于背景类的概率相关,因为仅存在 2 个类,PT = 1 - PB。
• 训练 - 根据公式 1 定义的当前可用训练数据集构建分类器。
• 预测 - 使用最新构建的分类器对历史数据集(分别为 ΦT 和 ΦB)执行预测,并根据任务类别(而非背景类别)分配置信度分数。
半监督学习过程 仅依赖于 训练计算机视觉模型的多次迭代,这些模型可以访问不同的训练集。训练和预测操作为此功能提供接口。由于对数据/权重的任何修改 仅在训练模型并在 ΦT 和 ΦB 上执行预测(从而更新置信度指标)后才会影响过程,因此半监督学习过程的每一步/迭代都从训练模型和预测 ΦT 和 ΦB 开始。
• 更新任务——增量αiT 对应于ΦT 中的MT 最高置信度任务检测。
• 更新背景——增量αj B 对应于ΦB 中MB 最低置信度任务检测。
• 更新干扰因子——增量αj B 对应于ΦB 中的MC 最高置信度任务检测(因此 匹配干扰因子的定义:高置信度,但分配给错误的类)。
更新操作用于在半监督学习过程的迭代中管理数据集。通过更新每个图像对损失函数的贡献,模型的决策边界也被修改,一些图像的重要性高于其他图像。需要注意的是,需要独立维护两个数据集 ΦT 和 ΦB 的顺序统计信息(例如第 MT 个最大置信度值),因为这两个数据集的基础语义和类概率分布非常不同。
结合起来,这些操作定义了半监督技术的行为。随着时间的推移,图像可用性的时间控制是通过 逐渐拓宽 允许模型更新 α 值的时间范围 来管理的:最初,只有对应于较近图像的值可以更新,但在以后的迭代中,α 值对应于较早的图像图像也可能会更新。这大大降低了模型由于与图像的当前前身图像的连接(结构或其他方面)较少而对图像进行错误分类的可能性。此行为由与“任务”和“背景”类对应的参数 DT 和 DB 确定,并表示从数据集中的最新图像开始需要捕获图像的最大持续时间(以月为单位),以便α值可更新。换言之,当且仅当图像 ΦiT 是在 ΦT 中的最后一个图像的 DT 个月内捕获时,才可以更新 αiT,并且对于 αj B、DB、ΦiT 和 ΦT 类似。
(半监督部分略)
Results:
Ablation on using self-supervision:
2.2.1 节中详述的使用自监督的消融结果(表 5)表明 MoCo 学习的表示是优越的。有趣的是,允许模型修改 MoCo 学习的表示(配置 3)导致保持精度从 72%(来自配置 1)下降到较小的训练集大小的 61%,这表明数据过度拟合的问题。
Characterizing self-supervised performance:
表 6 中的结果对应于使用自监督表示获得的验证准确度,作为第 2.2.2 节中描述的实验的一部分。
(半监督部分略)
Discussion:
Speed and scalability:
通过这种规模的建模,重要的是要考虑如何跨计算基础设施扩展此类分析以快速交付结果。所提出的方法能够在 3 小时内生成覆盖澳大利亚 15 个城市、跨越 22,000 平方公里和超过 6000 万张图像的结果。这是每小时 2000 万张图像或大约每小时 7000 平方公里的吞吐量。由于神经网络中推理过程固有的独立性,这些结果是利用微不足道的并行性生成的。在 Spartan HPC 平台上的 12 个 V100 GPU 上执行处理,这些 GPU 分布在 3 个节点(每个节点 4 个 GPU)上[49]。在单个 GPU 上,相同的工作负载需要 24 小时才能完成单个任务。此运行时性能评估对应于第 3.2.4 节中讨论的半监督工作流。
Archival imagery analysis:
在探索基础设施随时间演变的任务中,模型的一个简单用例被用来强调其效用。分析在整个墨尔本市进行,并分析了随时间推移的自行车基础设施。在特定位置识别的基础设施的第一个实例以检测年份进行了标注。该信息用于生成加载到 QGIS 中的 GIS 图层,然后将其可视化,如图 5 所示。这突出了所提出的模型在提供跨越大地理区域多年的准确和一致数据方面的效用。手动过程收集的相同数据收集起来很费力,并且涉及注释者的重复工作。除了提供额外的训练数据外,对档案图像的探索还提供了对基础设施网络增长和变化的进一步见解。
Interpretability:
基于神经网络的方法的一个关键问题是生成模型的可解释性。由于模型承诺的最终预测功能是多个复杂层相互作用的产物,因此验证模型学习的决策边界是否一致非常重要。在模型可解释性和可解释性领域有许多与神经网络直接相关的工作。通过在包含相应类的输入图像上可视化模型的激活,这些方法中的一些被合并以进一步验证本文的模型。
在这方面使用了两种方法(极扰动 [50] 和引导反向传播 [51]),结果如图 6 所示。
Zhang 等人 [52] 提供了一个评估归因技术的框架,方法是让模型在单个像素上“指向”,然后根据该点与图像中给定类别的距离(15 像素距离)进行评分。以依赖于方法的方式 为每种技术导出分数。
为了对神经网络模型生成的结果产生信心,使用 [50] 实现了类似的工作流程。由神经网络激活的单个最重要的图像区域在图像中突出显示并手动验证。图 7 中可以找到自行车符号的示例。在其他类别中也观察到类似的结果,但是,由于这是一个类别,其中图像中只有一个区域对应于所考虑的任务,这形成了模型和可解释性技术的较难案例之一。因此,该结果用于突出和进一步验证模型的行为。
可扩展方法在基础设施分析中的意义:
骑自行车和主动交通可以解决机动交通造成的道路网络日益拥堵,减少空气污染,并解决令人担忧的人口不活动水平。然而,骑自行车并非没有受伤的风险 [53],而且在越来越多的骑自行车者中,如果不存在独立的基础设施 [54],尽管不匹配,骑自行车的伤害也会增加。具体而言,遭受危及生命伤害的骑自行车者人数平均每年增加 7.5% [55]。最近,与 COVID-19 大流行相关的社会疏离措施导致全球自行车活动加速增加,新自行车销售强劲增长 [56]。促进和增加骑自行车的使用 需要调查 与 伴随受伤人数增加 相关的特征。这些特征之一是 特定自行车基础设施的可用性,例如标记或物理分离的车道。本文的研究提供了一种 创建此类自行车基础设施目录 的方法,该目录可以具有许多有用的下游应用,例如 基础设施类型的开发[57]。重要的是,这项工作展示了如何将该方法扩展到其他类型的城市特征。
Conclusion:
本文提出了一种 从航空影像中提取大量特征的通用方法,这些特征 描述了单幅影像中的环境。虽然 图像分割方法 可以在单个模型中实现类似的结果,但是一个主要的限制是 需要大量的样本用于模型校准。例如,Azimi等人[58]注释了31个语义类别,包括低植被、树木、铺面道路、非铺面道路、铺面停车场、非铺面停车场、自行车道、人行道、入口/出口和12种车道标志类型。随着用户需求的变化,通过将一些详细的类别合并到更高级别的类别(例如“自然”)中,创建了多个数据集。这些图像分割方法在城市基础设施识别方面有很大的潜力。然而,创建带注释的训练数据集是一个高度资源密集型的过程,无法保证细分类别与备选研究问题的要求相匹配。
相比之下,本文的方法每个类别只需要200个标签注释,这实质上更有效。还探索了引入的方法的几种变体,修改了自监督和半监督学习工作流的方面。深度学习可解释性技术用于验证模型学习的假设。本文描述了各种类型的基础设施(如人行道、自行车道)的特征检测的准确性,表明 常见的基础设施 比 罕见的物体(如自行车符号) 更容易检测。然而,在给定 足够数量的训练样本 的情况下,本文中讨论的深度学习方法能够准确地检测 任何被调查的基础设施类型。虽然初始图像注释的级别可以讨论(即,在本研究中设置为200),但 低阈值 防止对易于区分的特征(如铁轨)进行过多的注释。当某些类别需要更高的预测精度时,在已经注记的位置 获取额外的历史影像等方法可以提高精度,而无需进一步注记。