M3SDA:用于多源域自适应的矩匹配

1、收集并注释了迄今为止最大的UDA数据集DomainNet,该数据集包含六个域和大约60万个图像,分布在345个类别中,解决了多源UDA研究的数据可用性差距。

2、提出了一种新的深度学习方法,多源域自适应矩匹配(M3SDA),旨在通过动态对齐特征分布的矩,将从多个标记源域学习的知识迁移到未标记目标域。

3、为单信源域和多信源域自适应中的矩匹配方法提供了新的理论见解。并通过实验证明我们的新数据集在基准测试最先进的多源领域自适应方法方面的能力,以及我们提出的模型的优势。

M3SDA:用于多源域自适应的矩匹配_第1张图片 DomainNet数据集

1、DomainNet数据集 

M3SDA:用于多源域自适应的矩匹配_第2张图片

       我们提出的数据集包含约60万幅图像,分布在345个类别和6个不同的域中。我们获取到各种物体分割,从家具、布料、电子到哺乳动物、建筑等。

6个域包括剪贴画(clp);信息图(inf);绘画(pnt);Quickdraw(qdr);照片(rel);草图(skt)

       为了控制注释质量,我们为每个图像指定了两个注释器,并且只拍摄两个注释器都同意的图像。在过滤过程之后,我们从120万张网络抓取的图像中保留了423.5k张图像。

a、对于剪贴画和信息图领域,该数据集平均每个类别约有150个图像;

b、对于绘画和草图领域,每个类别约有220个图像;

c、对于真实领域,每个类别约有510个图像。

M3SDA:用于多源域自适应的矩匹配_第3张图片

上图显示DomainNet数据集的统计数据。这两个图显示了按实例总数排序的对象类。上图显示了每个域在数据集中所占的百分比下图显示了由24个不同分区分组的实例数

2、理论基础

2.1单源域的UDA(无标签域适应)

          在过去几十年中,人们提出了各种单源UDA方法。这些方法在分类上可分为三类。

a、基于差异的DA方法。它利用不同的度量学习模式来减少源域和目标域之间的域迁移(MMD、KL散度、H散度)。

b、基于对抗的方法。利用域鉴别器通过对抗目标来鼓励域混淆。生成对抗网络广泛用于学习域不变特征以及生成虚假源域或目标数据。

c、基于重构的。利用数据重构帮助DA模型学习域不变特征(dualGAN、cycle GAN、disco GAN、CyCADA)。

       虽然这些方法在UDA方面取得了进展,但很少考虑从多个源域收集训练数据的实际情况。我们提出了一个模型来解决多源域自适应问题。

2.2多源域自适应

多源域自适应假设来自多个源域的训练数据可用,即MSDA。

a、H∆H散度——源域和目标域加权组合之间的散度。

b、通过最小化最近k源域的经验损失,建立了模型预期损失的一般界限。

c、目标假设可以由源域假设的加权组合来表示。

d、交叉熵损失理论保证的归一化解。

本论文的模型通过匹配矩直接匹配所有的数据分布。

2.3矩匹配

为了减少域差异,在两个域之间提出了不同的矩匹配方案。

a、MMD匹配。

b、匹配二阶矩的方法。

c、在RKHS中对齐内维协方差矩阵

d、引入了矩匹配正则化器来匹配高阶矩。

e、基于生成对抗网络的矩匹配方法。(GMMN、MMD-GAN)

与这些方法相比,本论文是匹配多个域的分布矩

3、多源域适应的矩匹配 

标签源域集合:D_{S}=\left \{ D_{1} ,D_{2},...D_{N}\right \}标记源域的集合;

无标签目标域:D_{T}

多源域自适应问题——在给定假设空间H中找到一个假设,从而最小化D_{T}上的测试目标误差。

定义1:假设X_{1},X_{2},...X_{N},X_{T} 分别是来自 D_{1},D_{2},...D_{N},D_{T}域的样本集合,然后D_{S}D_{T}之间的矩距离为:

MD^{2}\left ( D_{S} ,D_{T}\right )=\sum_{K=1}^{2}\left ( \frac{1}{N} \sum_{i=1}^{N}\left \| E\left ( X_{i}^{k} \right ) -E\left (X _{T}^{k} \right )\right \|_{2}+\binom{N}{2}^{-1}\sum_{j=i+1}^{N-1}\left \| E\left ( X_{i}^{k} \right )-E\left ( X_{j}^{k} \right ) \right \|_{2}\right )

M3SDA:用于多源域自适应的矩匹配_第4张图片 M3SDA框架

 M3SDA模型由特征提取器G、矩匹配组件和一组N个分类器C=\left \{ C_{1},C_{2},...C_{N} \right \}组成。

特征提取器G——DS、DT映射到公共潜在特征空间

矩匹配组件——最小化矩相关距离

N个分类器——在具有交叉熵损失的注释源域上训练。

因此,总体目标损失函数为:

\min_{G,C}\sum_{i=1}^{N}\iota _{D_{i}}+\lambda \min_{G}MD^{2}\left ( D_{S},D_{T} \right )

\iota _{D_{i}}——域D_{i}上分类器C_{i}的softmax交叉熵损失;

λ——控制参数。

假设在对齐p(x)时,p(y | x)将自动对齐,我们进一步提出了M3SDA-β。

M3SDA-β

我们利用每个域的两个分类器来形成N对分类器C^{'}=\left \{ \left ( C_{1},C_{1}^{'}\right ),\left ( C_{2},C_{2}^{'}\right ),...\left ( C_{N},C_{N}^{'}\right ) \right \}

训练过程包括三个步骤:

i) 训练G和C^{'}来正确分类多源域样本,如上面总体目标损失函数所示。

ii)针对固定G训练分类器对,使每对分类器在目标域上的差异尽可能大。

PS:我们将两个分类器的差异定义为两个分类器输出之间的L1距离。

因此,目标函数为:

\min_{C^{'}}\sum_{i=1}^{N}\iota _{D_{i}}-\sum_{i}^{N}\left | P_{C_{i}} \left ( D_{T} \right )-P_{C_{i}^{'}}\left ( D_{T} \right )\right |

P_{C_{i}} \left ( D_{T} \right )P_{C_{i}^{'}} \left ( D_{T} \right )分别表示C_{i}C_{i}^{'}在目标域上的输出。

iii)固定C_{i}^{'}并训练G,以最小化目标域上每个分类器对的差异。

目标函数为:

\min_{G}\sum_{i}^{N}\left | P_{C_{i}} \left ( D_{T} \right )-P_{C_{i}^{'}}\left ( D_{T} \right )\right |

集成模式

在测试阶段,来自目标域的测试数据通过特征生成器和N个分类器进行迁移。通过下面两种模式来组合分类器的输出:

a、平均分类器的输出,标记为M3SDA^{*}

b、导出权重向量W=\left ( W_{1} ,...W_{N-1}\right )\sum_{i=1}^{N-1}w_{i}=1,假设第N个域是目标域)。最终的预测是输出的加权平均值

权重向量的主要原理是使其表示目标域和源域之间的内在紧密性。加权向量由第i个域和第N个域之间的纯信源域精度导出,即w_{i}=acc_{i}/\sum_{j=1}^{N-1}acc_{j}

4、原理解析 

        介绍了一个严格的多源域自适应二值分类模型。一个域D=(µ,f)由输入空间X上的概率测度(分布)µ和标记函数f:X→ {0, 1}构成。

假设是一个函数h:X→ {0, 1}.。在域分布µ下,h与域标记函数f不一致的概率定义为:

\varepsilon _{D}\left ( h \right )=\varepsilon _{D}\left ( h,f \right )=E_{\mu }\left [ \left | h\left ( x \right ) -f\left ( x \right )\right | \right ]

对于源域D_{S}和目标域D_{T},我们将假设h的源域误差和目标域误差称为\varepsilon _{S}\left ( h \right )=\varepsilon _{D_{S}}\left ( h \right )\varepsilon _{T}\left ( h \right )=\varepsilon _{D_{T}}\left ( h \right )

对于经验分布,我们用\widehat{\epsilon _{D}}\left ( h \right )表示相应的经验误差,例如\widehat{\epsilon _{S}}\left ( h \right )\widehat{\epsilon _{T}}\left ( h \right )

a、给定权重向量\alpha =\left (\alpha _{1},...\alpha _{N} \right )\sum_{j=1}^{N}\alpha _{j}=1;

b、将假设h的α加权信源域误差定义为\varepsilon _{\alpha }\left ( h \right )=\sum_{j=1}^{N}\alpha _{j}\varepsilon _{j}\left ( h \right )

PS:\varepsilon _{j}\left ( h \right )=\varepsilon _{D_{j}}\left ( h \right )α加权信源域的经验误差可以类似地定义,并用\widehat{\epsilon _{\alpha }}\left ( h \right )表示。

定理1:

       假设条件:1、H为VC维度的假设空间;

                         2、m为来自所有源域\left \{ D_{1},D_{2},...,D_{N} \right \}标记样本的大小;

                         3、S_{j}为从\mu _{j}中提取的大小为B_{j}\times m\sum_{j}B_{j}=1)的标记样本集,并由真 实标记函数f_{j}进行标记。

定理阐述:如果\widehat{h}\in H\widehat{\epsilon _{\alpha }}\left ( h \right )的经验极小值,对于固定权重向量α和h_{T}^{*}=\min_{h\in H}\varepsilon _{T}\left ( h \right )是目标域误差最小值,那么对于任何δ∈ (0,1)和任何\varepsilon > 0,存在N个整数\left \{n _{\varepsilon }^{j} \right \}_{j=1}^{N}和N常数\left \{\alpha _{n _{\varepsilon }^{j}} \right \}_{j=1}^{N},此时概率至少为1− δ

\varepsilon _{T}\left ( \widehat{h} \right )\leq \varepsilon _{T}\left ( h_{T}^{*} \right )+\eta _{\alpha ,\beta ,m,\delta }+\sum_{j=1}^{N}d_{CM^{k}}\left ( D_{j} ,D_{T}\right )

其中:

\eta _{\alpha ,\beta ,m,\delta }=4\sqrt{\left ( \sum_{j=1}^{N}\frac{\alpha _{j}^{2}}{\beta _{j}} \right )\left ( \frac{2d\left ( log\left ( \frac{2m}{d} \right ) +1\right )+2log\frac{4}{\delta }}{m} \right )};

\lambda _{j}=\min_{h\in H}\left \{ \varepsilon _{T} \left ( h \right )+\varepsilon _{j}\left ( h \right )\right \};

定理1表明,假设学习的目标误差上界取决于目标域和每个源域之间的成对矩散度d_{CM^{k}}\left ( D_{S} ,D_{T}\right )。此外很明显,界限的最后一项\sum_{k}d_{CM^{k}}\left ( D_{S} ,D_{T}\right )是源域之间的成对散度下界。

ps:要看到这一点,需要注意示例由两个源域D_{1}D_{2}和目标域D_{T}组成,因为d_{CM^{k}}\left ( .,.\right )是一个度量.规定下限的三角不等式如下:

d_{CM^{k}}\left ( D_{1} ,D_{T}\right )+d_{CM^{k}}\left ( D_{2} ,D_{T}\right )\geq d_{CM^{k}}\left ( D_{1} ,D_{2}\right )

这促使我们的算法也对齐每对源域之间的矩。如果源域本身没有对齐,则不可能将目标域与每个源域完全对齐

5、总结 

1、收集、注释和评估了迄今为止最大的领域适应数据集DomainNet。由于存在显著的领域差距和大量类别,该数据集具有挑战性。

2、提出了M3SDA,将多个源域与目标域对齐。在交叉矩散度的框架下,推导了该方法有意义的误差界。

3、将矩匹配组件引入深度神经网络,并以端到端的方式训练模型。

你可能感兴趣的:(迁移学习,生成对抗网络,计算机视觉,人工智能,深度学习,图像处理)