Cross-View Regularization for Domain Adaptive Panoptic Segmentation域适应全景分割的交叉视图正则化(文章解读)

Cross-View Regularization for Domain Adaptive Panoptic Segmentation域适应全景分割的交叉视图正则化(文章解读)_第1张图片

内容简介


现有的大多数全景分割方法多为在有监督环境下进行,本次工作就在很少被关注到的无监督域适应设置下对全景分割方法进行研究。

设计一个域自适应全景分割网络:CVRN ,通过采用 inter-task regularization (ITR) 和 an inter-style regularization (ISR)来解决域自适应的全景分割问题。具体来说,ITR 利用实例分割和语义分割的互补性来规范其自训练。ISR 采用在线图像风格化来增强同一图像的多个视图,以实现自训练的规范化。

将SYNTHIA,Cityscapes,Mapillary Vistas三个数据集分别作为源数据集和目标数据集进行训练和测试,效果对比Sota模型如AdvEnt,mRQ、mPQ提升近4%

1.域适应学习


        域适应是迁移学习的一种特殊情况,目标是在源数据集上训练一个神经网络,并确保在显著不同于源数据集的目标数据集上也有良好的表现。域学习根据目标域是否提供标签可分为监督学习、半监督学习和无监督学习。Cross-View Regularization for Domain Adaptive Panoptic Segmentation域适应全景分割的交叉视图正则化(文章解读)_第2张图片

Cross-View Regularization for Domain Adaptive Panoptic Segmentation域适应全景分割的交叉视图正则化(文章解读)_第3张图片        由于我们已经在源数据集上训练了神经网络,所以模型必须在源数据集表现良好。然而为了模型在目标数据集上也表现良好,那么从源数据集和目标数据集提取的特征应该是相似的。因此,在训练时,应当加强特征提取,为源域和目标域提取相似的特征。

2.无监督域自适应全景分割


无监督全景分割的目标是通过使用未标记的目标图像来实现全景分割。为了实现这一目的,我们需要运用域适应的方法,在源域,即有标签的数据集上训练一个全景分割网络,这个数据集应当与我们目标域的数据应当尽可能的相似。再将训练得到的全景分割网络迁移至目标域数据集上。

但是,单纯的迁移网络并不能在目标域上有良好的表现,因为源域数据和目标域数据的对象、场景、风格、光照、对比度等条件并不一致。为了神经网络在目标域的泛化性,我们提出了Cross-View Regularization for Domain Adaptive Panoptic Segmentation域适应全景分割的交叉视图正则化,在CVRN中引入了Multi-Task Self-Training(MTST)、inter-style regularization(ISR),同时,考虑到语义分割和实例分割相互的约束性和关联性,引入了inter-task regularization(ITR)。

Cross-View Regularization for Domain Adaptive Panoptic Segmentation域适应全景分割的交叉视图正则化(文章解读)_第4张图片

 CVRN流程图

1.将目标域图像和风格化的目标域图像传入源域的全景分割网络,得到实例分割和全景分割初步的预测图(灰框)

2.得到初步的伪标签(pseudo label,PL)(红框)

3.对目标域图像伪标签和风格化目标图像伪标签分别做任务间正则化(ITR),利用实例分割和语义分割的互补性,分别得到其ITR正则化后的全景分割图像和实例分割图像(蓝框)

4.对目标域图像和风格化目标域图像做风格间正则化(ISR),利用同一场景但不同风格的图像的互补属性进行正则化得到正则化后的全景分割图像和实例分割图像(绿框)

5.将交叉视图正则化实例分割和语义分割伪标签融合到全景分割伪标签中,训练具有无标记目标数据的无监督域自适应全景分割模型。

3.训练方法

3.1.多任务自学习 Multi-Task Self-Training 


在源域下,得到全景分割网络 F ,将该网络迁移至目标域后,每个图像 通过F都可以得到语义分割的预测值和一个实例分割预测值,伪标签可以基于这两个数值,通过一个选择函数S 构造。

   是一个条件判断函数,满足条件返回1,不满足返回空值,kc是个类别平衡超参数,即S可取到高于置信度且最大时候的类别c。

在源域下,全景分割损失是由语义分割和实例分割求个所得,即:

 

因此,给定全景分割模型F和目标域图像MTST loss可表示如下:

 

3.2.任务间正则化 Inter-Task Regularization

ITR由两部分构成,实例分割伪标签正则化和语义分割伪标签正则化。实例分割伪标签正则化和语义分割伪标签正则化函数分别如下:

Cross-View Regularization for Domain Adaptive Panoptic Segmentation域适应全景分割的交叉视图正则化(文章解读)_第5张图片

Cross-View Regularization for Domain Adaptive Panoptic Segmentation域适应全景分割的交叉视图正则化(文章解读)_第6张图片

 ITR loss可表示为:

Cross-View Regularization for Domain Adaptive Panoptic Segmentation域适应全景分割的交叉视图正则化(文章解读)_第7张图片

3.3.风格间正则化 Inter-Style Regularization

ISR loss表达式如下:

Cross-View Regularization for Domain Adaptive Panoptic Segmentation域适应全景分割的交叉视图正则化(文章解读)_第8张图片

其中表示风格化处理后的目标域图像,表示  经过F后的预测值。表示经过风格化处理后的伪标签,其计算方式如下:    

3.4 CVRN 损失函数

综上所述,CVRN的全局损失函数由四个部分构成:

 

 Cross-View Regularization for Domain Adaptive Panoptic Segmentation域适应全景分割的交叉视图正则化(文章解读)_第9张图片

 由图可知,以SYNTHIA作为源域,Cityscapes作为目标域时,同时引入MTST、ITR、ISR时的效果最好,这也符合了设计CVRN网络结构的目的。

4.数据对比Sota模型 Cross-View Regularization for Domain Adaptive Panoptic Segmentation域适应全景分割的交叉视图正则化(文章解读)_第10张图片

Cross-View Regularization for Domain Adaptive Panoptic Segmentation域适应全景分割的交叉视图正则化(文章解读)_第11张图片

Cross-View Regularization for Domain Adaptive Panoptic Segmentation域适应全景分割的交叉视图正则化(文章解读)_第12张图片

 通过数据可知,CVRN对比当前Sota模型,mSQ,mRQ,mPQ均有明显提升。

你可能感兴趣的:(深度学习,机器学习,无监督学习,神经网络,图像识别)