原文链接:https://www.techbeat.net/article-info?id=4150
作者:吕骋
本文提出了一种全新的无监督域自适应模式:先验知识指导的无监督域自适应(KUDA),目的是利用先验知识补偿目标域标记数据的缺失。具体地,作者考虑了两种目标域类分布的先验约束:描述单个类类概率范围的一元上下界,以及描述两个类类概率差异的二元关系。基于先验约束,作者提出了一种通用模块用于修正模型预测的伪标签,该模块可以很容易地集成到基于自训练的UDA方法中。作者将它与两种前沿方法SHOT和DINE相结合,验证了利用先验知识可以改善伪标签质量,进而提升域自适应的性能。
论文链接: https://arxiv.org/abs/2207.08877
代码链接:https://github.com/tsun/KUDA
深度神经网络在各种视觉任务中表现出显著的性能提升,然而这样的性能高度依赖于大量的标记数据,获得这些数据通常是昂贵的。无监督域自适应(UDA)将有标记源域学习到的预测模型迁移到无标记目标域,近年来取得了很多进展,但由于目标域中没有标记数据,UDA仍然是一项具有挑战性的任务。
另一方面,在许多实际应用中,关于目标域的先验知识通常是可以获得的。获取类分布先验信息并不一定需要标记每个个体样本。例如,植物学家可以利用历史信息估计保护区内野生物种的比例;经济学家可以根据当地的产业结构判断货车保有量是否比其他车辆更多。这些先验知识可以提供与未标记数据互补的有价值线索,在源域和目标域分布偏移较大时尤为有益。事实上,传统机器学习工作中已有提出利用先验知识弥补标记数据的不足,但将其系统性集成到UDA中仍有待探索。
基于上述观察,作者提出了一种全新的UDA模式:先验知识指导的无监督域自适应(KUDA),具体如图1所示。除目标域训练样本之外,还可以访问目标域类分布的先验知识。文中考虑了两种类型:描述单个类类概率范围的一元上下界(例如方块的类概率在0.1到0.3之间),和描述两类类概率差异的二元关系(例如三角形多于方块)。KUDA的任务是在这些先验知识的指导下,将源域学习到的预测模型迁移到目标域中。值得说明的是,除了文中提到的两种,还可以定义其他各种类型先验知识。一元和二元约束在实际应用中更加通用且更容易获得。
图1(左)先验知识指导的无监督域自适应(KUDA)。除目标数据外,还可以利用目标域类分布的一些先验知识。(右)本文考虑的两种类型先验知识。
为了将先验知识结合到域自适应中,文中提出了一种通用模块,通过求解0-1整数规划问题来修正模型生成的伪标签。该模块可以很容易地集成到基于自训练的UDA方法中。为了验证其有效性,作者将其与两种前沿UDA方法SHOT和DINE相结合,在四个常用的UDA数据集上进行对比实验,其中两个数据集具有很大的类分布偏移。实验结果验证了在先验知识指导下利用修正模块可以改善伪标签质量,进而显著提升自训练后两种方法的域适应性能。本文工作表明,考虑目标域类分布的先验知识非常重要,尤其是当源域和目标域间隔较大时候。
假设 P ∈ R n t × C P \in \mathbb{R}^{n_t \times C} P∈Rnt×C 是模型在目标域数据上预测得到的类概率矩阵,则第 ii 个样本的伪标签可以通过 y ^ i t = arg max p i \hat y_i^t=\text{arg max} p_i y^it=arg maxpi 获得,其中 p i p_i pi 是 P P P 的第 i i i 行。求解伪标签的过程可以等价地且更加紧凑地表示为:
其中 L L L 是one-hot形式表示的待求解伪标签, ⟨ ⋅ , ⋅ ⟩ \langle\cdot, \cdot\rangle ⟨⋅,⋅⟩ 是两个矩阵的内积, [ n t ] = { 0 , 1 , … , n t − 1 } [n_t ]=\{0,1,…,n_t-1\} [nt]={0,1,…,nt−1} 。该优化问题的最优解为 L ^ i , y ^ i t = 1 \hat L_{i,\hat y _i^t}=1 L^i,y^it=1 ,同时 L ^ i , c = 0 ∀ \hat L_{i,c}=0 \forall L^i,c=0∀ c ≠ y ^ i t c \neq \hat{y}_{i}^{t} c=y^it 。
在没有任何先验知识的情况下,每个目标域样本求解伪标签相互独立。伪标签类概率 p ^ t ( c ) = ∑ i L i , c / n t \hat{p}_{t}^{(c)}=\sum_{i} L_{i, c} / n_{t} p^t(c)=∑iLi,c/nt 理论上应接近真实类概率 p t ( c ) p_t^{(c)} pt(c) ,但由于模型预测结果有噪声,该条件往往无法满足。本文提出使用类概率的先验知识来修正模型预测的伪标签。
将两种目标域类分布的先验知识作为约束条件,添加到上述的优化问题中,可以得到硬约束形式的优化目标:
此优化问题属于0-1整数规划,可以用标准算法直接求解。尽管如此,使用硬约束形式是不推荐的,因为当这些约束条件不相容时,优化问题将变得不可求解。
为了克服硬约束形式的缺点,作者通过引入松弛变量 \xiξ 将先验知识转化为软约束形式。在软约束形式的目标函数中, MM 是一个非负常数。当 MM 充分大时,只要从先验知识导出的硬约束是可满足的,软约束形式的最有解将与硬约束形式相同;当 M=0M=0 时,软约束优化问题将退化为无先验约束的初始问题。
前文提出利用目标域类分布的先验知识来改进伪标签。该步骤仅利用了模型预测的概率矩阵,而忽略了特征空间中样本的分布情况。在分类任务中,通常希望标签预测是局部平滑的。因此,作者添加了一个平滑正则化,使相邻样本求解得到的伪标签保持一致。
文中选择模型预测不确定的目标样本的子集 S t ⊆ D t \mathcal{S}_{t} \subseteq \mathcal{D}_{t} St⊆Dt 。让每个 x i t ∈ S t x_i^t \in \mathcal{S}_t xit∈St 在 D t \ S t \mathcal{D}_{t} \backslash \mathcal{S}_{t} Dt\St 中的最近邻为 x k i t x_{ki}^t xkit 。平滑正则化是等约束的集合, R = { ( l i = l k i ) ∣ x i t ∈ S t } \mathcal{R}=\left\{\left({l}_{i}={l}_{k i}\right) \mid {x}_{i}^{t} \in\right. \left.\mathcal{S}_{t}\right\} R={(li=lki)∣xit∈St} 。将这些等式转换为软约束是非常重要的,因为它将在目标中引入二阶项。这些等式是硬约束时,无法直接将它们添加到上面两个等式中。
首先求解一次无平滑正则约束的优化问题得到模型在目标域样本上预测不确定的一个子集 S t ⊆ D t \mathcal{S}_{t} \subseteq \mathcal{D}_{t} St⊆Dt ,令样本 x i t ∈ S t x_i^t \in \mathcal{S}_t xit∈St 在 D t \ S t \mathcal{D}_{t} \backslash \mathcal{S}_{t} Dt\St 中的最近邻为 x k i t x_{ki}^t xkit ,则可以得到一组平滑正则化约束条件 R = { ( l i = l k i ) ∣ x i t ∈ S t } \mathcal{R}=\left\{\left({l}_{i}={l}_{k i}\right) \mid {x}_{i}^{t} \in\right. \left.\mathcal{S}_{t}\right\} R={(li=lki)∣xit∈St} 。因为将这些等式转换为软约束是非平凡的,作者直接将其作为硬约束添加到优化问题中,并再次求解优化问题。
图2 将伪标签修正模块集成到SHOT和DINE方法中的示意图。
文中提出的伪标签修正模块(即通过优化问题更新伪标签)可以很容易地集成到基于自训练的UDA方法中。作者选择了两种前沿的UDA算法,SHOT和DINE,来验证其有效性,其流程如图2所示。
作者在Office-Home,Office,VisDA-2017和DomainNet上进行了对比实验,探究了在不同精确程度的先验知识约束下,UDA算法的性能提升。其中 σ \sigma σ 越小表明先验知识越精确。部分结果如下:
表1 SHOT和kSHOT方法在Office-Home以及VisDA上目标域正确率对比结果
表2 SHOT和kSHOT方法在DomainNet 上目标域正确率对比结果
表3 DINE和kDINE方法在Office-Home上目标域正确率对比结果
实验表明,当先验知识比较精确时,进行伪标签修正后的算法相比原始版本准确率有了显著提升。随着先验知识精确度下降,性能提升也有所下降。更多实验表明,在类分布偏移较大的数据集上以及Partial-set UDA设置下,使用先验知识对模型准确率的提升更加显著。
作者从两方面分析了先验知识对UDA的指导作用:先验知识可以修正靠近决策边界的非置信样本的预测标签(如图3所示);先验知识可以改善样本伪标签的整体分布(如图4所示)。
图3 (左)先验知识可以修正非置信样本的伪标签;(右)Office A→W任务训练过程中使用先验知识修正前后伪标签的正确率曲线。
图4 先验知识可以改善伪标签的整体分布。
图5表明即使当先验知识含有噪声或先验知识只约束部分类别时,其对UDA仍有帮助。
图5 (左)Office-Home US-RT 和(中)Office上含有不同程度噪声的先验知识指导; Office-Home US-RT上覆盖不同类别个数的先验知识指导。
作者提出了一种新颖但现实的设置:先验知识指导的无监督域自适应(KUDA)。在KUDA中,除了有标记源数据和无标记目标域数据之外,还可以获得目标域类别分布的一些先验知识。为了利用先验知识,作者提出了一种通用模块,通过求解约束条件下的优化问题来修正伪标签。作者将其集成到两种前沿的基于自训练的UDA方法,SHOT和DINE,中进行对比实验。结果表明,使用先验知识可以改善伪标签质量,进而提升域自适应性能。