《Domain Generalization by Solving Jigsaw Puzzles》论文阅读

研究表明,人类的学习过程本身就是监督学习与无监督学习的结合,事实上,许多研究都强调婴儿和幼儿同时学习对物体和规律进行分类。例如,婴幼儿通过玩具形状来识别不同的类别;在孩子12-18个月大的时间里,动物或车辆的拼图游戏鼓励学习物体之间的空间关系。这种类型的联合学习无疑是人类在幼年时期达到复杂视觉概括能力的关键因素。

拼图游戏

拼图游戏本身是一个无监督视觉任务,之前有许多方法来解决这个任务,本文将拼图游戏转化为一个分类任务。具体的实现方式如下:

1. 将图像裁剪成n \times n的patches,本文中n=3

2. 将这些patches随机打乱,共有n^2!种组合,根据汉明距离,给每一种排序方式打上一个序列标签,例如1,2,3,4,5,6,7,8,9序列标签为1;9,2,3,4,5,6,7,8,1序列标签为2;

3. 为减少分类任务的难度和分类的类别数,只选取了其中的P类,P=30

本文相当于将拼图任务转化为一个30分类的分类任务。

域泛化与域适应

机器学习,特别是深度学习的一个基本假设是独立同分布。训练数据与测试数据分布相差巨大,就会导致分类识别性能急剧下降。域适应假定存在源域与目标域,源域中数据有标签,目标域中数据无标签。目标域数据用于指导源域训练。在传统的域适应中,条件是非常苛刻的,一般满足:

1. 两个域的标签种类相同,且分布接近。

2. 两个域存在Covariate Shift,即 (│=)=  (│=), but  ()≠  ()

3. 仅存在一个目标域和一个源域。

4. 目标域数据存在。

针对以上的条件,都有学者进一步研究。以增加域适应的实用性。域泛化对比域适应是没有目标域数据的(目标域数据不参与训练),在仅知道源域的数据与标签的条件下,训练出的模型要求在任何分布下泛化性能均有提升。

模型方法

本文采用多任务的方法来同时解决拼图任务与分类任务,模型图如下:

网络模型很简单,一个主干网络,后面接两个结构相同的全连接网络,一个用于分类任务,另外一个用于拼图任务。通过前述的方法打乱图像,在同一个iter中将顺序图像和打乱图像按比例一起送入网络,文中设置了一个超参数\beta来控制比例,例如一个iter送入的batch是32,\beta = 0.5,那么一个batch中顺序图片数量为16,打乱图片数量为16。另外顺序图片是参与分类任务与拼图任务的,但是打乱图片仅参与拼图任务。

在应用于无监督域适应中,仅需要在目标域无标签数据上添加最小化预测不确定度loss,L_E(x^t)=\sum_{y\in Y}h(x^t|\theta_f,\theta_c)log{h(x^t|\theta_f,\theta_c)}。这个loss在《A DIRT-T APPROACH TO UNSUPERVISED DOMAIN ADAPTATION 》和《Co-regularized Alignment for Unsupervised Domain Adaptation》这两篇域适应论文中也用到了。

实验过程

作者设置了4个实验,分别显示该模型在拼图任务,多域泛化,单域泛化、多域适应四个任务中有效果。

一些重要的结论如下:

1. 与单纯的拼图任务做对比,发现分类任务对于拼图任务性能有提升。

2. 本文的方法在三个域泛化数据集上显示:对比于源域训练泛化的模型,性能有所提升(PACS:79.05->80.51; VLCS: 72.66->72.19; 60.51->61.20),但都不明显。

3. 应用于多域适应,依然有效果。

你可能感兴趣的:(《Domain Generalization by Solving Jigsaw Puzzles》论文阅读)