【迁移学习】JDA(Joint Distribution adaptation )小结

JDA(Joint Distribution adaptation )一种联合分布自适应的方法。

问题描述:

迁移学习是一门利用源域知识来提升目标域知识的学科(这里说的比较笼统),JDA是一种即考虑两个域之间的边缘分布( marginal distributation)又考虑条件分布(conditional distribution)的经典迁移学习方法。
领域(Domain):一个领域(Domain)由两部分组成:一个m维的特征空间X 和边缘分布P(x)即D = {X,P(x)}且x∈X。
任务(Task):存在一个领域D,一个任务由一个有C种标签的数据集Y和一个分类器f(x)组成即T = {Y,f(x)},y∈Y,且f(x)= Q(y|x)可以被看做一个条件分布。
问题:给定一个有标记的源域Ds和一个未标记的目标域Dt。假定

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
需要学习一个特征表示使得目标域和源域的边缘分布以及条件分布之间的差异显著减小。

解决办法:

问题建模:

问题中提到了需要学习一个特征表示使得目标域和源域的边缘分布以及条件分布之间的差异显著减小,这句话可以用数学公式表示:

【迁移学习】JDA(Joint Distribution adaptation )小结_第1张图片
但仔细观察上述公式会发现,因为目标域并没有标记数据,同时
在这里插入图片描述
无法被直接的表示出来。最好的方法是估计:
在这里插入图片描述在这里插入图片描述
即通过源域数据分布来对目标域进行标记,这也是迁移学习的核心思想。下面问题就是如何更准确的估计我们需要的分布。

特征提取

一些降维方法通过最小化reconstruction error可以学习迁移特征表示。在这个方法中作者采用了最经典的PCA(Principal Component Analysis)来进行特征迁移。设
在这里插入图片描述
为输入矩阵。
在这里插入图片描述

为中心矩阵(中心矩阵具有移除矩阵均值对数据的影响的作用,在许多模式识别和机器学习问题中,我们习惯于吧数据减去均值。因为对于大部分类似图像的数据而言,均值即零频率分量包含的信息是比较少的。减去均值对整个模型的计算具有正向积极的影响。)
那么协方差矩阵可以表示为:
在这里插入图片描述
从而学习一个迁移矩阵A的问题就可以表示为:
在这里插入图片描述(2)
这个问题又可以进一步的转化为一个求特征分解的问题:
在这里插入图片描述
在这里插入图片描述是由特征分解之后最大的K个特征值所对应的特征向量。

边缘分布自适应

虽然通过pca可以做迁移,但实际结果并不是很好。所以还需要更近一部拉近源域和目标域边缘分布的距离。和许多迁移学习经典方法一样,这里也采用MMD来衡量两个域之间的距离。

在这里插入图片描述
【迁移学习】JDA(Joint Distribution adaptation )小结_第2张图片
最小化(3)的作用和最大化(2)的作用是一致的。这部分的方法和TCA是一样的,具体有关TCA的部分可以看:【迁移学习】TCA小结

条件分布自适应

就像前面说过的,条件分布自适应遇到的最大问题是在我们的问题设定中,目标域是没有标记的,所以目标域的边缘分布
在这里插入图片描述
无法被计算,所以作者打算为目标域打上伪标签。做伪标签的方法很简单,在源域上训练一些分类器(比如SVM、PCA、神经网路什么的)之后用这个分类器来对目标域数据进行分类,这样就可以为目标域打上伪标签。
这里会有个疑问,通过这种方法肯定无法准确的分类目标域,因为二者的分布具有很大的区别,这里作者的解释是
【迁移学习】JDA(Joint Distribution adaptation )小结_第3张图片
意思是虽然通过这种方式不可能对目标域进行准确的分类,但是用伪标签估计出边缘分布之后计算 MMD并且求得可以得到最距离的变换这种方式仍然是有效的。理由是我们通过探索足够的统计数据而不是密度估计来匹配分布。通过这种方式我们可以用源域的分类器来提升目标域的分类器性能。
有了伪标签,我们就可以估计出边缘分布
在这里插入图片描述
这里可以进一步建模MMD距离:
【迁移学习】JDA(Joint Distribution adaptation )小结_第4张图片
【迁移学习】JDA(Joint Distribution adaptation )小结_第5张图片
通过最小化(5)等效于最大化(2)从而达到最小化两个域距离的作用。最终学习出变换A使得:

在这里插入图片描述所以JDA可以通过改变条件分布来解决跨域(corss-domain)问题。

你可能感兴趣的:(transfer,learning)