领域自适应(Domain Adaptation)和多源领域自适应(Multi-source Domain Adaptation)

本文摘自于:https://www.cnblogs.com/Jason66661010/p/13565283.html
https://blog.csdn.net/weixin_42555985/article/details/105086552
https://blog.csdn.net/qq_38157877/article/details/85678879
https://blog.csdn.net/u014546828/article/details/110426961

一、问题来源

在经典的机器学习中,我们往往假设训练集和测试集分布一致,但是在实际的问题中,测试环境往往与训练的数据有较大的差异,出现过拟合问题:在训练集上训练结构较好,但是在测试集上的效果不好,因此出现了迁移学习技术。

二、迁移学习

把已学训练好的模型参数迁移到新的模型来帮助新模型训练。通俗来讲,就是运用已有的知识来学习新的知识,核心是找到已有知识和新知识之间的相似性,也就是举一反三的意思。
具体地,在迁移学习中,我们已有的知识叫做源域(source domain),要学习的新知识叫目标域(target domain)。迁移学习研究如何把源域的知识迁移到目标域上。由于直接对目标域从头开始学习成本太高,我们故而转向运用已有的相关知识来辅助尽快地学习新知识。

三、领域自适应理解

迁移学习(Transfer Learning)的一种,思路是将不同领域(如两个不同的数据集)的数据特征映射到同一个特征空间,使其在该空间中的距离尽可能近。于是在特征空间中对source domain训练的目标函数,就可以迁移到target domain上,提高target domain上的准确率。
源域(source domain):与测试样本不同的领域,但是有丰富的监督信息
目标域(target domain):测试样本所在的领域,无标签或者只有少量标签
源域和目标域往往属于同一类任务,但是分布不同。
领域自适应(Domain Adaptation)和多源领域自适应(Multi-source Domain Adaptation)_第1张图片
假设要选择某一区域的颜色信息作为图像特征,上图红线表示source dataset的颜色信息值分布,蓝线表示target dataset的颜色信息值分布,很明显对于这一特征来讲,两个域的数据本来就是有shift的。而这个shift导致我们evaluate这个模型的时候准确率会大大降低,那么这个区域的颜色信息就不适合选择特征。
既然这个特征不合适,那我们就换特征。领域自适应旨在利用各种的feature transformation手段,学习一个域间不变的特征表达(特征自适应),基于这一特征,我们可以更好地同时对两个域的数据进行分类。

四、多源领域自适应

大多数领域自适应的方法只关注一个源领域和一个目标领域。但现实生活中可用的源域也并非只有一个,这也就出现了多源领域自适应的问题。
多源领域适应 (MDA) 是一个强大的扩展,它可以从不同分布的多个源收集标记数据。(实际中,被标签的数据集(源域)可能不止一个哦,这就诞生了 多源域领域自适应,MDA。)

五、三种不同的领域自适应方法

样本自适应:其基本思想是对源域样本进行重采样,从而使得重采样后的源域样本和目标域样本分布基本一致,在重采样的样本集合上重新学习分类器。(适用于源于和目标域分布差异小的情况)
理解:就是在源域中有一些样本与目标域的样本相似,在训练源域中的样本的时候乘以一个权重,即与目标域越相似,则该权重越大
特征自适应:其基本思想是学习公共的特征表示,在公共特征空间,源域和目标域的分布要尽可能相同。(适用于对源域和目标域有一定差异的情况)
理解:通过一个映射使源域样本与目标样本调整到同一个特征空间
模型自适应:其基本思想是直接在模型层面进行自适应。模型自适应的方法有两种思路,一是直接建立模型,但是在模型中加入“domain间距离近”的约束,二是采用迭代的方法,渐进地对目标域的样本进行分类,将信度高的样本加入训练集,并更新模型。(适用于源域和目标域差异比较大的情况)
理解:在无监督的自适应中,使用衡量源域和目标域数据的距离的数学公式作为LOSS进行训练,使得距离缩小。
领域自适应(Domain Adaptation)和多源领域自适应(Multi-source Domain Adaptation)_第2张图片
领域自适应(Domain Adaptation)和多源领域自适应(Multi-source Domain Adaptation)_第3张图片

六、小样本学习

小样本学习:在小样本学习中假设目标域中数据更加有限,其中包括有标签和无标签的数据。在某些极端的情况下,目标域中没有预先提供的数据样本,也就变成了域泛化研究的问题。小样本学习变体:零样本学习(zero-shot learning)、单样本学习(one-shot learning)、贝叶斯规划学习(Bayesian Program Learning,BPL)、短资源学习(low source learning)和域泛化(domain generalization)

你可能感兴趣的:(机器学习,迁移学习)