领域自适应简述

摘自 https://zhuanlan.zhihu.com/p/21441807 深度学习大讲堂

领域自适应问题中两个至关重要的概念:源域(source domain)表示与测试样本不同的领域,但是有丰富的监督信息,目标域(target domain)表示测试样本所在的领域,无标签或者只有少量标签。源域和目标域往往属于同一类任务,但是分布不同。

根据目标域和源域的不同类型,领域自适应问题有四类不同的场景:无监督的,有监督的,异构分布和多个源域问题。

机器学习的经典流程可以看作:收集训练集的数据,提取特征,在训练集上依据经验误差最小准则学习分类器。如果训练集和测试集分布一致,则模型效果好。如果分布不一致,在源域过拟合,在目标域上效果不好。

通过在上述流程的不同阶段进行领域自适应,研究者提出了三种不同的领域自适应方法:1)样本自适应,对源域样本进行加权重采样,从而逼近目标域的分布。2)特征层面自适应,将源域和目标域投影到公共特征子空间。3)模型层面自适应,对源域误差函数进行修改,考虑目标域的误差。

image.png

样本自适应:其基本思想是对源域样本进行重采样,从而使得重采样后的源域样本和目标域样本分布基本一致,在重采样的样本集合上重新学习分类器

特征自适应:其基本思想是学习公共的特征表示,在公共特征空间,源域和目标域的分布要尽可能相同。上图中所示为Long等人基于DL的迁移学习框架,其网络结构和标准CNN基本一致,不同之处在于对最后的全连接层特征增加了一个MMD约束,使得源域和目标域要具有尽可能相同的分布。通过特征自适应,将输入的样本投影到公共子空间,通过计算源域的经验误差,逼近目标域的经验误差能相同的分布

模型自适应:其基本思想是直接在模型层面进行自适应。模型自适应的方法有两种思路,一是直接建模模型,但是在模型中加入“domain间距离近”的约束,二是采用迭代的方法,渐进的对目标域的样本进行分类,将信度高的样本加入训练集,并更新模型。

image.png

样本自适应作用于最前端,适合于源域和目标域分布差异小的情况。特征自适应适用于于源域和目标域有一定差异的情况。模型自适应的适用范围最广,能够应用于源域和目标域差异比较大的场景。

未来工作:

1)探索新的度量域分布差异的准则。

2)如何避免有害的迁移。

3)如何对特定应用选择适合的迁移学习方法。

4)无监督的领域自适应:大规模的无标注目标域数据以及深度迁移学习方法。

最新进展可参考:https://mp.weixin.qq.com/s/TJjgyL4dR2cMfbk8DUmbfw
综述文章:Generalizing to Unseen Domains: A Survey on Domain Generalization

你可能感兴趣的:(领域自适应简述)