HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation

HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation

Abstract

  由于GPU内存的限制,之前大多数的方法仅仅是在下采样图片上进行操作。但是下采样图片的低分辨率预测往往不能保存细粒度的细节。随机剪切一些高分辨率图片用来训练模型减轻了这个问题,但是不能够捕获大范围的,领域鲁棒的上下文信息。因此,作者提出了HRDA,应用于UDA的一种多分辨率训练方法,结合了小的高分辨率的crops的优点,来保存细粒度的分割细节,同时用大的低分辨率的crops,通过一个可学习的范围注意力机制来捕获大范围的上下文依赖。

Introduction

  低分辨率的输入难以识别小的目标主体(远处的红绿灯等)以及细粒度的分割细节(远处行人的四肢)。如果全部使用高分辨率的图片输入,将会耗费特别多的GPU内存。一个常见的做法就是用随机裁剪的图片碎片来训练模型。引入HR的目的就是适应小的主体,保护分割细节。但是HR限制了学习大范围的上下文信息,这取决于裁剪块的大小。
  总结来说:HR的优点:适应小的目标主体,保护分割细节。缺陷:忽略掉了一些上下文信息,包含了一些对UDA有害的过于细节的特征。LR的优点:可以学习到丰富的上下文信息。缺陷:忽略了一些分割细节。
  为了将这两种方法的优势结合起来,并且维护一个可管理的GPU内存占用,作者提出了HRDA。第一步,HRDA使用一个大的LR crops来适应大的对象,而不混淆来自特定领域的HR 纹理,并学习大范围的上下文依赖,因为我们假设HR细节对大范围的上下文依赖并不重要。第二步,使用小的HR crops来适应小的目标主体并保存分割细节,我们假设大范围上下文信息在学习分割细节中只起从属作用。HRDA使用一个输入依赖的范围注意力机制来融合两者,注意力学习决定LR和HR预测在每个图像区域的可信度。最后,为了使HRDA适应目标域,可以用多个分辨率融合的伪标签进行训练。为了进一步提高细节伪标签相对于不同上下文的鲁棒性,我们使用重叠的滑动窗口机制生成了它们。
本文贡献:
(1) 系统学习了分辨率和裁剪块的大小的影响
(2) 利用率高分辨率的输入来适应小的目标主体和细粒度的分割细节
(3) 采用一个可学习的多分辨率融合的范围注意力机制来实现object-scale-dependent adaptation
(4) 融合了大的LR crops以捕获大范围的上下文信息和小的HR crops以捕获细节,以实现内存高效的UDA训练。

Preliminary

请添加图片描述
  这里的第一个参数就是指输入的原始高分辨率图片,第二个参数中 s T s_T sT是指原始高分辨率图片转换为低分辨率图片后,尺寸是原来的1/ s T s_T sT倍。
首先在源域数据上通过交叉熵损失训练一个模型:
HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation_第1张图片
这里的 q i , j q_{i,j} qi,j表示标签的置信度,因为是源域数据,标签置信度为1。H(y)表示标签的尺寸。
  仅仅在源域上训练是不够的,我们在目标域上同样进行了训练。在这里作者使用自训练的方法DAFormer来评估HRDA的效果。
  首先通过教师模型的预测来得到伪标签请添加图片描述
计算总的损失,并更新教师模型:
请添加图片描述 请添加图片描述
请添加图片描述
  更多的,DAFormer使用了consistency training,网络 f θ f_θ fθ在通过DACS增广的目标域数据上训练, g θ g_θ gθ使用无增广的目标域图片来生成伪标签。除了自训练之外,DAFormer使用了一个domain-augment 的Transformer网络,稀有类采样,基于ImageNet特征的特征正则化。

Methods

HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation_第2张图片
用大的LR context crop去学大范围的上下文依赖,用小的HR detail crop来保存分割细节。

Context and Detail Crop

在这里插入图片描述
这里就是将输入的图片裁剪一下,然后将裁剪下来的高分辨率图片下采样成低分辨率样本 x c x_c xc
裁剪边界框 b c b_c bc从图像大小内的离散均匀分布中随机采样,同时确保坐标可以分为k=s·o,o≥1表示分割网络的输出步幅,以确保在以后的融合过程中精确对齐。
在这里插入图片描述
对于HR crop 是在LR crop中裁剪,方法相似:
HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation_第3张图片
  在这项工作里,作者使用的context和detail crops用的相同的维度, h c h_c hc= h d h_d hd, w c w_c wc= w d w_d wd,来平衡这两种crop所需的资源,并在上下文感知和详细的预测之间提供良好的权衡。
  这里使用了特征编码器fE和一个语义解码器fS,context和detail语义分割伪标签:在这里插入图片描述
在这里插入图片描述

Multi-Resolution Fusion

  HR detail crops 适合去适应小的主体,缺少捕获大范围依赖的能力,这与LR context crop相反。我们使用注意力机制来融合HR和LR crop,来预测某个区域使用context还是detail crop的预测比较合适。
  注意力机制fA学习去预测范围注意力 a c a_c ac=在这里插入图片描述来权衡LR上下文和HR细节预测的可信度。1代表使用HR detail crop,由于输出步幅o,预测小于输入,因此在以下步骤中相应地对crop坐标进行缩放。在这里插入图片描述
通过将detail crop填充为零,将detail crop与(上采样)context crop对齐:
请添加图片描述
通过使用注意力权重和来融合多范围的预测:
在这里插入图片描述
编码器fE,分割头部fS,注意力头部fA通过融合的多范围预测和detail crop 预测来训练:
在这里插入图片描述在这里插入图片描述
对于伪标签预测,作者还利用了多分辨率融合。因此,在预测伪标签时,范围注意力机制关注的是更适合的分辨率(例如,对于小物体的HR)。由于伪标签也被进一步用于训练模型与更不适合的分辨率(例如,对于小对象的LR),它提高了对小对象和大对象的鲁棒性。

Pseudo-Label Generation with Overlapping Sliding Window

  作者通过教师网络来给目标域样本生成伪标签pTc,F
HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation_第4张图片

你可能感兴趣的:(语义分割,迁移学习,人工智能,深度学习,python)