最优传输论文(二)Deep Joint Distribution Optimal Transport for Unsupervised Domain Adaptation

前言

本文使用一种名为DeepJDOT的解决方案来解决域适应问题 : 通过基于最优传输的联合深度表示/标签的差异度量,我们不仅学习源和目标域之间对齐的新数据表示,而且同时保留分类器使用的鉴别信息
在JDOT中,作者提出利用离散最优输运来匹配源域中类正则性约束下两个域的移位边际分布,联合分布直接使用耦合 γ 对边缘和类条件分布共同移位进行对齐。但该方法存在两个缺点,本文对此提出了解决方案:
1)JDOT方法扩展性差,必须解决n1 × n2耦合问题,其中n1和n2为待对准样本;
2)其次,在输入空间之间计算最佳传输耦合 γ (并使用L2距离),这是一个较差的对齐表示,因为我们感兴趣的是匹配更多的语义表示,以简化使用它们进行决策的分类器的工作。

DeepJDOT采用卷积神经网络(CNN)解决我们的两个问题所需的特征:
1)通过在CNN训练过程中逐步适应最优传输耦合,我们得到了一个可扩展的解,一个近似的随机JDOT版本;
2)通过学习CNN深层的耦合,我们对齐分类器用来做出决策的表示,这是类的更语义的表示

我们提出的DeepJDOT使用了两个域共享嵌入的概念,但在对齐中添加了一个明确的鉴别组件 : 提出的DeepJDOT将表示和判别学习联系起来,因为最优传输耦合 γ 确保分布是匹配的,而 i) JDOT类损失执行源标签传播到目标样本,ii)在CNN的深层学习耦合的事实确保了判别能力。

嵌入方法的概念:指的是通过数学变换(机器学习算法)将高维空间的对象映射到低维空间并保持相关性质的一种方法(也可用于过滤样本噪声)。

Optimal Transport

OT在两个分布区(µ1、µ2)之间搜索出一个位移代价最小的概率耦合 γ ∈Π(µ1、µ2)
在这里插入图片描述
一个给定的代价函数c(x1, x2)测量样本x1和x2之间的不相似度。其中Π(µ1,µ2)描述了边缘µ1和µ2的联合概率分布空间。在离散的情况下(两个分布都是经验的),这变成:
在这里插入图片描述
其中F是Frobenius点积,C≥0是一个代价矩阵∈Rn1×n2,表示双向代价C (xi, xj), γ是一个具有规定边际的n1×n2的矩阵。这个优化问题的最小值可以用作分布之间的距离当代价c是范数时,它被称为Wasserstein距离

Joint Distribution Optimal Transport

本文提出的联合分布最优传输(JDOT)方法,通过直接学习嵌入在代价函数c中的分类器防止两步适应(即首先适应表示,然后在适应的特征上学习分类器)。其基本思想是对齐联合特征/标签分布而不是只考虑特征分布
在这里插入图片描述
为第i个源元素和第j个目标元素,其中c(·,·)被选为L2距离,L(·,·)为分类损失(例如铰链或交叉熵)。参数α和λt是两个衡量距离项贡献的标量值。由于目标标签ytj是未知的,它们被替代版本f(xtj)所取代,它依赖于一个分类器f : X→Y。对分类损失的计算导致以下最小化问题:
在这里插入图片描述
其中Df依赖于f ,并收集所有成对的成本d(·,·)具有共同表示和共同标签(通过分类)的样本将被匹配,从而产生更好的辨别能力JDOT证明了最小化这个量等价于最小化域适应问题的学习边界。然而,JDOT有两个主要的缺点: i)在大型数据集上,求解 γ 变得难以处理,因为 γ 的大小与样本数量成二次方关系; ii) 代价c(xsi, xtj)在输入空间中作为图像上的平方欧氏范数,并不能说明两个样本之间的不相似。
我们提出的DeepJDOT解决了这两个问题,方法是引入一个随机版本,只计算CNN迭代过程中的小耦合,并在CNN更深层次的语义表示之间学习最优传输,而不是在图像空间中。
最优传输论文(二)Deep Joint Distribution Optimal Transport for Unsupervised Domain Adaptation_第1张图片
图1所示。提出的DeepJDOT方法概述。虽然两个域共享特征提取器 g 和分类器 f 的结构,但它们被表示两次,以区分两个域。潜在表示和标记都用于计算每批耦合矩阵γ,用于全局损失函数。

Proposed method

Deep Joint Distribution Optimal Transport(DeepJDOT)

如图1所示,DeepJDOT模型由嵌入函数 g: x→z和分类器f: z→y两部分组成,前者将输入映射到潜空间z,后者将潜空间映射到目标域中的标签空间。潜在空间可以是模型提供的任何特征层,在我们的例子中是CNN的倒数第二个全连接层DeepJDOT联合优化该特征空间和分类器,以提供一种在目标域上表现良好的方法。这个问题的解决方法可以通过最小化以下目标函数来实现:
在这里插入图片描述
其中
在这里插入图片描述
α和λt是控制两项权衡的参数,如式(3)所示。与JDOT类似,损失中的第一项比较源域和目标域嵌入的兼容性,而第二项考虑目标域中学习到的分类器 f 及其相对于源域中可用标签的规律性
尽管与JDOT[5]的表述相似,但我们的命题有一个显著的区别:
在DeepJDOT中,Wasserstein距离在CNN内的结合(嵌入空间/标签)分布之间最小化,而不是在原始输入空间之间最小化。
由于CNN的深层编码空间和语义信息,我们认为CNN更适合描述这两个领域的图像内容,而不是受光照、物体的姿态或相对位置等许多因素影响的原始特征。
可以注意到,式(5)中报告的公式只依赖于在目标域中学习的分类器。通过这样做,人们将重点放在为目标域学习一个好的分类器上,而忽略了在考虑源样本时分类器的性能。为了避免这样的遗忘,可以很容易地在(5)中重新合并源域上的损失,从而得到最终的DeepJDOT目标:
在这里插入图片描述

Solving the optimization problem with stochastic gradients

在本节中,我们描述求解DeepJDOT的近似优化过程。式(6)涉及两组待优化的变量:OT矩阵 γ 和模型 f和 g。这建议使用另一种最小化方法(如在最初的JDOT中提出的)。
1.当g(戴帽)和f(戴帽)是固定的时候,求解式(6)可得到一个标准的OT问题,其中包含相关的成本矩阵:
在这里插入图片描述
2.固定γ时,优化g和f是一个经典的深度学习问题。
然而,用经典OT求解器计算最优耦合并不适用于大规模数据集。因此,在这项工作中,我们建议用一个随机近似来解决问题,使用来自源域和目标域的minibatch。这种方法有两个主要优点:它可以扩展到大型数据集,并且可以很容易地集成到现代深度学习框架中。更具体地说,目标函数(6)通过对规模为m的小批量采样来近似,这将导致以下优化问题:
在这里插入图片描述
因此,我们建议得到Eq.(7)的随机更新如下(并在算法4中总结):

  1. 在固定CNN参数(g(戴帽),f(戴帽))的情况下,对每一个随机抽取的小批(m个样本),得到耦合:
    在这里插入图片描述
    采用网络单纯形流算法。
  2. 利用上一步得到的固定耦合的γ(戴帽),对小批上的以下损失进行随机梯度更新嵌入函数(g)和分类器(f):
    在这里插入图片描述
    域对齐项只对具有相似激活/标签的源和目标样本进行对齐,稀疏矩阵 γ 将自动在源和目标样本之间执行标签传播,分类器f在源域和目标域同时学习
    最优传输论文(二)Deep Joint Distribution Optimal Transport for Unsupervised Domain Adaptation_第2张图片

Conclusion

本文提出了基于最优传输的无监督深度域自适应的DeepJDOT模型。该方法的目的是学习源和目标分布的公共潜空间,传递两个域的鉴别信息。这是通过通过最优传输最小化联合深度特征/标签域分布的差异来实现的。我们提出了一种有效的随机算法来解决这个问题。

你可能感兴趣的:(深度学习,人工智能)