现有的对抗性UDA方法通常采用额外的鉴别器来与特征提取器进行最小-最大博弈。然而,这些方法大多未能有效利用预测的判别信息,从而导致生成器的模式崩溃。
为了解决这个问题,本文设计了一个简单而有效的对抗性范式,即无鉴别器的对抗性学习网络(DALN),其中类别分类器被重新用作鉴别器,通过统一的目标实现显式的领域对齐和类别区分,使得DALN能够利用预测的判别信息来进行充分的特征对准。
本文引入了一个Nuclear-norm Wasserstein discrepancy (NWD),它对执行判别具有明确的指导意义。这种NWD可以与分类器耦合,用作满足K-Lipschitz约束的鉴别器,而不需要额外的权重裁剪或梯度惩罚策略。作为一种即插即用技术,NWD可以直接用作通用正则化子,以有益于现有的UDA算法。
分类器用作鉴别器的动机:原始任务特定分类器对源域和目标域具有隐含的判别能力。
下图显示了基于仅使用源数据训练的模型的源域和目标域上的预测的自相关矩阵。对于源域,得益于监督训练,自相关矩阵的值集中在主对角线上。
相反,对于目标域,由于缺乏监督,预测在非对角线元素上生成更大的值。因此,自相关矩阵中表示的类内和类间相关性能够构造对抗性批评家。
类内部和类之间的关系。
给定由C预测的预测矩阵,其中包含k个类别的预测概率乘以b个样本,自相关矩阵
可以通过
来计算,其中预测矩阵
满足
对于自相关矩阵R,主对角线元素表示类内相关性,非对角线元素表示类别间相关性或混淆[19]。
将总体类内相关性定义为,将总体类间相关性定义为
:
对于源域,预测有助于得到较大的和较小的
;而对于目标域,由于缺乏监督训练,预测通常产生相对较小的
和较大的
。因此,
可以用来表示域差异。根据方程3,
和
满足
。同时,
等于预测矩阵Z的Frobenius范数,即
。因此,
。Z是通过分类器C预测的,因此可以使用
作为相关评论家函数,由于源域上的监督训练,它自然会给源域样本高分,给目标域样本低分。此外,考虑到权重2和偏置b都是常数,
可以直接用作相关临界函数。
从相关性判别到1-Wasserstein距离。
受WGAN的启发,一个简单的想法是引入一个额外的鉴别器D来学习K-Lipschitz评论家函数h,该函数期望对源表示给出高分,对目标表示给出低分,并测量在两个特征分布之间1-Wasserstein距离
其中表示Lipschitz半范数,k表示Lipschtz常数。
用作鉴别器,然后,域差异可以写成
是
的缩写,其表示两个域分布的基于Frobenius范数的1-Wasserstein距离。通过这种方式,可以通过统一的目标实现显式的域对齐和类别区分,有助于利用预测的判别信息来捕捉特征分布的多模态结构。
从Frobenius范数到Nuclear范数
构造的鉴别器/评论家可以与生成器G一起执行对抗性训练,这有助于实现可转移和鉴别器表示,同时提高预测的确定性。然而,基于Frobenius范数1-Wasserstein距离的对抗性学习可能会降低预测多样性,因为它倾向于将具有少量样本的类别推送到远离决策边界的包含大量样本的相邻类别[9]。受关于核范数的工作的启发,该工作已被证明与Frobenius范数有界,因此试图用核范数
取代Frobeniu范数
,因为当
在
附近时,最大化
意味着最大化Z的秩,这提高了预测的多样性。因此,域差异可以重写为:
是
的缩写,其表示两个域分布的核范数1-Wasserstein差异(NWD)。然后,鉴别器可以重写为
。当分类器C用于分类时,它有助于实现类别级别的区分,但当C用作鉴别器时,它实现了特征级别的对齐。
文中分类器由一个完全连接层和一个softmax激活函数组成。可以证明,我们的隐式鉴别器的所有组件都满足KLipschitz约束(证明见补充材料),这使得所提出的模型能够在不需要额外的权重裁剪和梯度惩罚策略的情况下进行训练。因此,可以通过最大化域评论家损失来近似估计经验
:
DALN的对抗性学习。
构建了一个DALN,由基于预训练的ResNet的生成器G和由完全连接层和softmax层构建的分类器C组成。为了避免对DALN进行乏味的交替更新,使用不包括上述梯度惩罚或权重裁剪的梯度反向层(GRL)来帮助实现一次反向传播内的更新。通过这种方式,DALN可以通过进行最小-最大游戏来训练:
此外,为了确保UDA分类的保真度,需要保证源域的低源风险。
因此,生成器G和分类器C也应该通过最小化源域的监督分类损失来优化为:
用于优化分类模型的总体损失可以写成:
其中λ用于平衡和
。在这项工作中,λ被设置为1。在对抗性学习的帮助下,DALN学习可转移和有区别的表示,同时保证预测的确定性和多样性。
消融实验
混淆矩阵
确定性和多样性
特征分布的t-SNE可视化