Unsupervised Domain Adaptation Through Self-Supervision论文阅读笔记

这篇文章是arxiv上的一篇domian adaptation的文章,觉得这里使用的方法和之前的方法完全不同,很有意思。所以整理了一下,和大家一起分享。
本文讨论了无监督域自适应,即源域上有标记的训练数据,但目标是在目标域上只有未标记数据,希望能够通过一些方法将源域上分类器迁移到目标域上,并能在目标域上有良好的性能。与之前的许多工作一样,我们试图在保持可辨别性的同时,对源域和目标域的学习表示进行对齐。我们实现对齐的方法是同时在两个领域学习辅助自监督任务。每一个自监督的任务都使这两个领域沿着与该任务相关的方向走得更近。在源域上与主任务分类器联合训练,可以成功地推广到未标记的目标域。所提出的目标易于实现和优化。我们在7个标准基准中有4个取得了最先进的结果,在细分适应方面也取得了具有竞争力的结果。
1.介绍
我们的主要思想是通过在两个域同时训练一个模型来实现源域和目标域之间的一致性。实际上,如果我们在两个域中都有标签,我们可以简单地使用我们最初的分类任务。然而,由于在目标域上缺乏数据,通过使用一个自监督的辅助任务,它直接从数据创建自己的标签。事实上,我们可以使用多个自我监督的任务,每个任务沿着与该任务相关的变化方向将两个域对齐。将这两个域上的所有自监督任务与源域上的原始任务联合起来训练,将生成与之很好一致的表示。
Unsupervised Domain Adaptation Through Self-Supervision论文阅读笔记_第1张图片就像所有的深度学习一样,我们只能通过经验验证,至少在我们的实验中,通过在内部为不同维度上的每个域创建不同的决策边界,模型不会过度拟合,否则会产生糟糕的结果。最近的研究表明,尽管随机梯度下降模型具有足够的能力,但它确实不太可能找到具有高复杂性(隐式正则化)的代价高昂的决策边界的过拟合解。
本文工作的主要贡献是将无监督域适应和自监督学习联系起来。虽然没有提出任何全新的自我监督任务,但提出了如何选择合适的任务进行适配的建议,并提出了针对这些任务的新的训练算法,使用了来自两个领域的批量样本。此外,我们证明了域对齐可以通过简单稳定的算法实现,而不需要对抗性学习,并报告了几个方面的最新结果。
图一显示的就是本文的基本思路,(a)相当于直接把源域分类器用于目标域,效果不佳;(b)相当于在源域与目标域上同时添加了一个自监督任务,这样通过同一个自监督学习任务,可以把源域与目标域拉近;©相当于在b的基础上通过多个自监督任务拉近源域与目标域的距离,从而将源域上的分类器可以直接应用于目标域上
2.相关工作
主要介绍了迁移学习与自监督学习的研究现状。
迁移学习主要有三种方法,第一种是拉近源域与目标域距离,主流方法是MMD与DA。第二种是在像素级上对样例进行转换,如利用风格迁移等方法进行变换。第三种是通过在源域上训练的源域训练器在目标域上建立伪标签,并以此为基础拉近源域与目标域的距离。
自监督学习的目标是利用监督学习的机制来解决无法获得外部监督的问题。这个主意是用来辅助的任务,其中数据本身可以用作监督,并使用它们来学习深入的特征表示,这将有望对下游的“真实”任务有用。通常,在未标记的数据(例如,没有标记的ImageNet训练集)上使用自我监督作为训练前步骤来初始化深度学习模型,然后对标记的训练集进行微调。最近,自我监督也被用于其他问题设置,如提高鲁棒性、领域泛化和few-shot learning。
3.为域适应而设计的自监督学习
辅助自监督任务的设计本身就是一个令人兴奋的研究领域,然而,并不是所有的方法都适合于无监督域自适应。为了诱导源和目标之间的一致性,由自我监督创建的标签不应该要求获取关于那些域毫无意义地不同的因素的信息,即我们试图通过适应来消除的变异因素。一般来说,预测结构标签的分类任务似乎比预测像素的重建任务更适合我们的目的。因此,我们确定了三个基于分类的自监督任务,它们结合了简单性和高性能:
旋转预测:输入图像依次旋转90,180,270度,该任务是该任务是预测旋转角度作为一个四维分类问题。
翻转预测:输入图像垂直随机翻转;任务是预测它是否翻转。
贴片位置预测:从输入图像中随机裁剪出小块;任务是预测这些补丁来自哪里。
考虑一个简单的说明性示例,其中源和目标是完全相同的,除了目标像素都按常数因子(例如从日光到黄昏的过渡)进行了缩小。上述三种形式的自我监督都适用于本例,因为像素缩放即亮度与旋转、翻转和位置的预测是“正交”的。
4.方法
一旦选择了K个自监督任务,我们的训练算法就很简单了。我们已经在主要预测任务上有了损失函数,记作L0,我们没有目标标签。每个自监督任务对应一个损失函数Lk, k =1…k。
总而言之,我们的方法包含了k+1个损失函数,对于k = 0…k,每个损失函数对应一个不同的“head”k,它在相应的标签空间中生成预测。所有特定于任务的头(包括实际预测任务的h0)共享一个公共的特征提取器。
在我们的文章中,在这里插入图片描述 是深度卷积神经网络,每一个hk都简化为一个线性层,如果kth任务本质上是分类的,那么hk在线性层之后还有一个softmax或sigmoid(用于多类或二进制)。输出空间维度只有4个用于旋转和位置分类,2个用于翻转和位置回归。根据所使用的网络架构,特征空间维度的范围在64到512之间。关键是使每个hk具有低容纳度,从而保证head被迫共享高级功能,这是诱导对齐所需要的。从最高层特征到输出的线性映射是可能的最小head,并且在经验上表现良好。
Unsupervised Domain Adaptation Through Self-Supervision论文阅读笔记_第2张图片这里,源域上是有标注数据,目标域上是无标注数据,Lo是源域上主任务,其遵守如下损失函数:
在这里插入图片描述而每一个自监督学习任务Fk通过一些转变fk来修正输入样例,则第k个自监督任务满足如下的损失函数:
在这里插入图片描述值得提及的是,与之前主任务上只有源域的数据被使用不同,在该损失函数上源域与目标域数据同时被使用,故,总体损失函数就是:在这里插入图片描述5. 超参数调整和早期停止的启发式
如前所述,在无监督域适应设置中,没有可用的目标标签,因此没有目标验证集,因此无法应用需要验证集的典型超参数调优和提前停止策略。这个问题仍然没有得到足够的重视。事实上,我们常常不清楚以前的工作是如何在训练结束后选择它们的超参数或决定因素的,这两者都是影响性能的重要因素,特别是对于使用对抗性学习的复杂算法。在本小节中,我们描述一个简单的启发式算法,这一算法只是凭经验做事,而不是靠技术创新。
就像几乎所有的深度学习方法一样,对于这种启发式并没有统计上的保证,但是在我们的实验中它被证明是切实有效的。
其主要思想是,由于我们的方法从未显式地优化任何分布差异的度量,因此这些度量可以用于超参数调优和提前停止。由于为了执行超参数调优而引入额外的参数会适得其反,所以我们只需使用源样本和目标样本在学习表示空间中的平均值之间的距离,(类似于MMD),其表示为
在这里插入图片描述其中在这里插入图片描述在这里插入图片描述是未标记的源和目标验证集,把这个损失函数当作验证集的主要损失函数,当达到一定值后即可停止,从而完成训练与验证。
实验部分不再赘述。

你可能感兴趣的:(迁移学习)