[CVPR 2018]Maximum Classifier Discrepancy for Unsupervised Domain Adaptation

背景

现有的对抗域适应方法中存在两个问题:1.域分类器只用于判别特征是属于源域还是目标域,并没有考虑到类别间的决策边界(没有利用到与类别相关的信息)。2.这些方法旨在于不同域之间的特征分布完全匹配,而由于每个域的特性不同,要实现特征分布的完全匹配比较困难。如下图左边部分所示,现有的一些对抗域适应方法希望于源域和目标域之间的数据分布“重合”,再使用源域上的分类器对目标域分类,而由于域的特性可能不同,尽管分布上重合,但由于没有充分考虑到目标域与源域的类别信息,源域与目标域之间的条件概率不同,导致域适应效果仍然存在提升空间。

[CVPR 2018]Maximum Classifier Discrepancy for Unsupervised Domain Adaptation_第1张图片

文中提出的方法考虑到该问题,提出最大化两个分类器(如上图右边所示的两条黑线)结果的差异,以检测出处于源域边界之外的目标域样本,然后使用一个特征生成器用于学习特征生成以至于目标域样本更接近于源域样本,这样最大化两个分类器的分类差异,并最小化源域与目标域特征之间的差异,形成一种生成对抗形态,使得源域和目标域对齐的同时还将判别信息考虑了进来,最终目标拟合为上图最右部分的状态,另外,方法中并没有使用到域标签训练判别器。

算法思想

该方法的大体思想是:通过两个分类器用于正确分类源域样本(考虑到了源域的类别信息),同时,分类器经过训练,用于检测出与源域之外(与源域相差较大)的目标域样本。但是由于目标域没有类别标签,所以这些处于源域之外的目标域样本没有直接可用于判别的信息,那如何考虑对这些样本的判别呢?方法中巧妙的通过两个分类器之间的分类差(即两个分类器的分类矛盾,如上图中右半部分左下的黄圈)作为一个判别信息,在生成器训练目标特征靠近源域边界的过程中将两个分类器对这些目标特征的分类结果考虑了进去。

[CVPR 2018]Maximum Classifier Discrepancy for Unsupervised Domain Adaptation_第2张图片

算法的训练分为三个阶段:

A:训练所有的分类器和生成器对源域样本正确分类,注意该处的分类器使用不同的初始化以获取不同的分类器。其损失函数,也就是普通的监督分类误差,如下:

m i n ( L ( X s , Y s ) ) = m i n ( − E ( x s , y s ) ∼ ( X s , Y s ) ∑ k = 1 1 [ k = y s ] l o g p ( y ∣ x s ) ) min (\mathcal{L}(X_s,Y_s)) = min(-E_{(x_s,y_s)\sim(X_s,Y_s)}\sum_{k=1} 1_{[k = y_s]} logp(y|x_s)) min(L(Xs,Ys))=min(E(xs,ys)(Xs,Ys)k=11[k=ys]logp(yxs))

B:对应上图中Maximize Discrepancy阶段,在这一步中,将固定上一步训练好的生成器参数,训练分类器 ( F 1 , F 2 ) (F_1,F_2) (F1,F2),并通过最大化分类器的分类差异(在上图中两条分类线往两边弯曲以使得中间的斜线阴影面积更大),以更好的检测出在源域边界之外的目标样本。这一步的损失函数中将源域中使用的监督误差也加入进来了,因为在实验中发现这样的效果会好很多,同时,在这一步的实验过程中使用了相同数量的源域和目标域样本用来更新模型,目标函数如下:

其中 d ( ⋅ , ⋅ ) d(\cdot,\cdot) d(,)为一个距离函数,用来测量两个分类器( p 1 , p 2 p_1,p_2 p1,p2)的分类误差,这里 d ( ⋅ , ⋅ ) d(\cdot,\cdot) d(,)使用的是L1距离:

d ( p 1 , p 2 ) = 1 K ∑ k = 1 ∣ p 1 k − p 2 k ∣ d(p_1,p_2) = \frac{1}{K} \sum_{k=1}|p_{1k} - p_{2k}| d(p1,p2)=K1k=1p1kp2k

其中K为类别数。这一步的主要目的是将类别边界和目标样本考虑进来(最大化分类器对目标样本的检测),训练出与任务相关的分类器(具有分类能力)作为第三步特征对齐的判别器。

C:对应上图的Minimize Discrepancy阶段,在这一步训练中固定了分类器的参数,通过更新生成器,使得目标样本特征与源域样本特征之间的差异最小化,完成源域与目标域的对齐,在上图中体现为目标域的圈逐渐靠近源域的分布圈中(因为这一步固定了分类器参数,所以上图中两条分类线不变)。使用的目标函数为:

m i n G ( L a d v ( X t ) ) min_G (\mathcal{L}_{adv}(X_t)) minG(Ladv(Xt))

重复以上步骤直到收敛,对应于上图的Obtained Distributions阶段。在文中提到,这三步的训练顺序并不重要,但是,B和C的训练顺序要在A之后才好。

参考

Kuniaki Saito, Kohei Watanabe, Yoshitaka Ushiku, et al. Maximum Classifier Discrepancy for Unsupervised Domain Adaptation, 2018.

知乎王晋东不在家:https://zhuanlan.zhihu.com/p/52085426

你可能感兴趣的:(深度学习,迁移学习)