论文阅读笔记:《Foreground-Aware Relation Network for Geospatial Object Segmentation in High Spatial Resolution Remote Sensing Imagery》
论文下载地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Zheng_Foreground-Aware_Relation_Network_for_Geospatial_Object_Segmentation_in_High_Spatial_CVPR_2020_paper.pdf
转载请注明:https://blog.csdn.net/weixin_42143615/article/details/109333756
在高空间分辨率(HSR)遥感影像中,地理空间对象分割作为一项特殊的语义分割任务,总是面临着较大的尺度变化、较大的背景类内方差和前景-背景不平衡等问题。然而,一般的语义分割方法主要关注自然场景中的尺度变化,没有充分考虑大面积地球观测场景中经常出现的另外两个问题。针对这两个问题,作者从基于关系的和基于优化的前景建模的角度提出了前景感知关系网络(FarSeg)。同时,从优化的角度出发,提出了一种基于前景的优化算法,重点关注前景样本和训练背景中的困难样本,以达到均衡优化的目的。核心工作如下:
1、提出了一种用于HSR遥感影像地理空间对象分割的前景感知关系网络。
2、为了继承多尺度上下文建模和学习地理空间场景表示,FarSeg基于特征金字塔网络(FPN)构建了一个前景分支,并在共享主干网络上构建了一个场景嵌入分支,即多分支编码器。
3、为了抑制误报,F-S关系模块利用地理空间场景和地理空间对象之间的共生关系,来关联前景相关的上下文并增强前景特征的区分度。
4、为了减轻前景-背景的不平衡,提出了一种基于前景的优化算法,重点关注前景样本和训练背景中的困难样本,以达到均衡优化的目的。
二、论文内容
2.1 引言
地理观测技术提供了大量的高空间分辨率(HSR)遥感图像,可以精细地描述各种地理空间对象,如船舶、车辆和飞机等,从HSR遥感图像中自动提取感兴趣的对象,对城市管理、规划和监测等领域非常有帮助。地理空间对象分割作为对象提取环节中的重要角色,可以为感兴趣的对象提供语义和位置信息,属于一种特殊的语义分割任务,目标是将图像像素分为前景对象和背景区域两个子集。与此同时,它需要进一步为前景对象区域的每个像素分配一个统一的语义标签。
与自然场景相比,HSR 遥感图像中的地理空间对象分割更具挑战性,至少有三个原因:
1、在HSR遥感图像中,物体总是有较大尺度的变化,这就造成了多尺度的问题,使得物体难以定位和识别。
2、HSR遥感图像中背景更为复杂,由于类内差异较大,容易造成严重的误报。
3、前景的比例远小于自然图像中,如图1所示,造成前景-背景不平衡问题。
对于自然图像,目标对象分割任务被直接视为计算机视觉领域中的语义分割任务,其性能主要受到多尺度问题的限制。因此,当前最新的通用语义分割方法集中于scale-aware和multi-scale方面来进行建模。然而,对于遥感图像的分割,在这些常规语义分割方法中忽略了误报和前景与背景不平衡等问题。本文认为这是因为这些方法缺乏针对前景的显式建模。
为了解决上述两个问题,本文提出了一种前景感知关系网络(FarSeg),该前景网络明确地利用前景建模技术在遥感图像中进行更鲁棒的目标分割。同时探索了显式前景建模的两种方法:基于关系和基于优化的前景建模,并且进一步在FarSeg中提出了两个模块:前景场景关系模块(foreground-scene relation module)和前景感知优化(foreground-aware optimization)。前景-场景关系模块学习场景与前景之间的共生关系,以关联与前景相关的上下文以增强前景特征,从而减少误报。前景感知优化通过抑制背景中的多个简单示例,将模型集中于前景,从而减轻前景背景不平衡问题。
2.2 相关工作
2.2.1 通用语义分割
传统方法首先通过手工特征描述符提取每个像素的特征。这些传统方法的进一步推广主要取决于手工特征描述符的改进。然而,设计特征描述符是耗时的,并且由于专家的先验知识的限制,手工制作的特征是不鲁棒的。
基于深度学习的方法的成功在于通过直接从数据中学习特征表示来解决这个问题。卷积神经网络作为深度学习中的结构化特征表示框架,已经被探索用于通过逐块分类进行语义分割。然而,区域方式限制了空间上下文建模,并且在区域之间的重叠带来了冗余计算。为了解决这个问题,提出了全卷积网络(FCN) ,它通过网络内上采样层从任意大小的输入直接输出像素级预测。FCN是第一个像素级语义分割方法,并进行端到端训练。
为了进一步利用空间语境进行语义分割,deeplab v1 利用atrous卷积来扩大CNN的感受野,以进行更广泛的空间语境建模。并且使用密集条件随机场作为后处理来平滑预测。
为了学习多尺度特征表示,提出了atrous空间金字塔汇集(ASPP) 和金字塔汇集模块(PPM) 。ASPP利用具有不同空洞率的多个空洞卷积来提取具有不同感受野的特征,而PPM通过金字塔汇集生成金字塔特征图。在deeplab v3 中,图像级特征和批量标准化被嵌入到ASPP中,以进一步提高准确性。dense app通过密集连接的ASPP进一步增强了多尺度特征表示,使多尺度特征覆盖更大和更密集的尺度范围。然而,这些方法无法提取物体的细节,如边缘。
U-Net 和SegNet 使用了一种新的“编码解码器”网络架构,该架构重用了具有高空间分辨率的浅层特征,以增强对空间细节具有强语义的深层特征。RefineNet 提出了一种多路径细化网络,用于逐步恢复深层特征的空间细节,以获得更好的准确性和视觉性能。Deeplab v3+还采用了“编解码”框架进一步完善通过更强大的主干异常和轻量级解码器,以较小的开销恢复要素的空间分辨率,从而提高性能。
这些通用的语义分割方法主要侧重于多尺度背景建模,忽略了HSR遥感影像中的特殊问题,如误报和前景-背景不平衡。导致这些方法缺乏对前景的显式建模。因此,HSR遥感影像中的目标分割需要一种前景感知方法。
2.2.2 遥感领域中的语义分割
语义分割技术在遥感领域有很多应用,如土地利用和土地覆盖(LULC)分类,建筑物提取,道路提取,车辆检测等。主要的方法遵循一般的语义分割,但是对于特殊的应用场景(例如道路或建筑物),有许多针对其应用场景的改进技术。
然而,这些方法主要集中在特殊应用场景下的改进,忽略了对HSR遥感影像中常见的目标分割问题的考虑,如虚报问题和前景-背景不平衡问题,尤其是对大规模的HSR遥感影像。因此,我们提出一个前景感知关系网络来解决这些问题。
2.3 前景感知关系网络
为了对HSR遥感图像中的对象分割的前景进行显式建模,我们提出了一种前景感知关系网络(FarSeg),如图2所示。
该方法由特征金字塔网络(FPN)、前景-场景关系模块、轻量级解码器和前景感知优化组成。FPN负责多尺度对象分割。在F-S关系模块中,我们首先将虚报问题表述为前景中缺乏判别信息的问题,然后引入潜在场景语义和F-S关系来提高前景特征的判别能力。轻量级解码器被简单地设计为恢复语义特征的空间分辨率。为了在训练过程中使网络聚焦于前景,提出了一种改进的前后景不平衡的优化方法。
2.3.1 多分支编码器
多分支编码器由前景分支和场景嵌入分支组成。如图2 (a)所示,这些分支建立在主干网上。在所提出的方法中,选择ResNets作为基本特征提取的骨干网。{Ci|i = 2,3,4,5}表示从ResNets提取的特征映射集,其中特征映射Ci相对于输入图像具有2像素的输出步幅。与原始FPN相似,自上而下的路径和横向连接用于生成具有4098个相同数量通道d的金字塔特征图{π| I = 2,3,4,5},我们将该过程表述如下:
其中ζ表示由可学习的1×1卷积层实现的横向连接,Γ表示比例因子为2的最近邻上采样。通过这种自上而下的路径和横向连接,可以通过浅层的高空间细节和深层的强语义来增强特征图,这有助于恢复对象的详细信息和多尺度上下文建模。除了金字塔形特征图vi,在C5上附加了分支,以通过全局上下文聚合生成地理空间场景特征C6。为了简单起见,使用全局平均池作为聚合函数。其中C6用于对地理空间场景与前景之间的关系进行建模。如第3.2节所示。
FPN可参考:https://blog.csdn.net/baidu_30594023/article/details/82623623?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160447185919724835855597%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=160447185919724835855597&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_click~default-2-82623623.pc_first_rank_v2_rank_v28&utm_term=FPN&spm=1018.2118.3001.4449
2.3.2 前景-场景关系模块
在HSR遥感图像中,背景要复杂得多。这意味着背景中存在较大的类内方差,从而导致误报问题。为了缓解这一问题,提出了前景场景关联模块,通过关联地理空间场景相关上下文来提高前景特征的区分度。主要思想如图3所示。F-S关系模块首先显式建模前景和地理空间场景之间的关系,并使用潜在的地理空间场景来关联前景和相关上下文。然后利用该关系对输入的特征图进行增强,以增加前景特征和背景特征之间的差异,从而提高前景特征的区分度。
如图2 (b)所示,对于金字塔特征图vi,F-S关系模块将产生新的特征图zi。特征图zi通过对vi进行重新编码,然后使用关系图ri对其进行重新加权来获得。关系图是地理空间场景表示和前景表示之间的相似性矩阵。为了将这两个要素表示对齐到一个共享流形Rdu中,需要分别学习地理空间场景和前景的两个投影函数。vi是由比例感知投影函数▽θI():Rd×h×W7→Rdu×h×W转换而成的特征图,如方程2所示。
为了计算关系图ri,需要一个1-D场景嵌入向量(scene embedding vector)u与共享的前景特征图交互。场景嵌入向量u是通过在C6上应用η(·)来计算的。
其中η表示用于地理空间场景表示的投影函数,并且由具有du输出通道的可学习的1×1卷积层实现。每个潜在金字塔共享场景嵌入向量,因为潜在的地理空间场景语义跨越所有金字塔,并且是尺度不变的。因此,关系图ri可以由下面等式获得。
其中φ表示相似的估计函数,并通过逐点内积实现,以简化操作并提高计算效率。
对于每个金字塔层,关系建模的过程细节如图4所示,关系增强前景特征图zi的计算方法如下所示:
其中κwi(·)是带有输入特征图的学习参数的编码器。编码器被设计为引入一个额外的非线性单元,以避免特征退化,因为加权操作是线性函数。因此,该编码器由1×1卷积层,批处理归一化和ReLU实现,以实现高效的参数和计算。该项目包括等式。公式5表示用于加权重编码特征图,该特征图是使用基于简单sigmoid函数的归一化关系图。
2.3.3 轻量级解码器
轻量级解码器旨在以轻量级方式从F-S关系模块中恢复关系增强的语义特征图的空间分辨率。轻量级解码器的详细架构如图5所示。
该轻量级译码器由许多上采样单元堆叠而成。上采样单元由通道变换T(·)和可选的2倍上采样操作U(·)组成,仅当因子σ= 1时才包含T(·)。因此,金字塔级的轻量级解码器可以简单表示为:
T(·)由一个3×3的卷积层实现,然后进行批处理归一化和ReLU。U(·)为双线性上采样,σ因子为2。为了从每个金字塔中聚合上采样的feature map,采用逐点平均操作,然后使用1×1卷积层进行计算和提高参数效率。采用4×双线性上采样,最终得到与输入图像大小相同的类概率图。
2.3.4 前景感知优化
前景与背景之间的不平衡问题通常导致在训练过程中背景示例主导了梯度。但是,只有背景示例的困难部分(分类错误的样本)对于训练后期的优化是有价值的,其中,背景中的困难样本比简单样本要少得多。以此为动力,本文提出了前景感知优化,以使网络集中在前景和背景中的困难样本上,以实现均衡优化。前景感知优化包括三个步骤:困难样本估计,动态加权和反向传播,如图2(d)所示。
hard example estimation
该步骤用于获得反映样本的难易程度的权重,以调整像素方向损失的分布。该样本越难表示其权重越大。在Focal loss的基础上做了改进,引入Z函数保证归一化。
dynamic weighting
困难样本估计依赖于模型的判别。然而,在训练的初期,区别是不确定的,这使得很难对样本进行估计。如果使用此不确定的样本权重,则模型训练将不稳定,从而影响聚合性能。为了解决这个问题,提出了一种基于退火函数的动态加权策略,设计了三种退火函数作为候选函数,如表1所示。给定交叉熵损失l,动态加权损失可表示为:
通过这种方式,损失分布的焦点可以随着困难样本估计的置信度的增加而逐步转移到困难样本上。
实验与结果
数据集: iSAID dataset
实验细节:backbone:ResNet-50,输入图像分辨率(896,896), sliding window striding 512 pixels
对比实验
消融实验
可视化实验
参考:https://blog.csdn.net/sinat_17456165/article/details/107274116
blog.csdn.net/qq_43534932/article/details/108072756