《迁移学习导论》--在读

《迁移学习导论》–王晋东、陈益强


第一部分 背景与概念

第一章 绪论

1.4迁移学习的研究领域

《迁移学习导论》--在读_第1张图片
1、特征空间分类(特征属性)

  • 同构迁移学习(Homogeneous Transfer Learning)
  • 异构迁移学习(Heterogeneous Transfer Learning
    解释:特征语义和维度都相同,那么就是同构;反之,如果完全不相同,那么就是异构。例如,不同图片的迁移就是同构,图片到文本的迁移就是异构。

2、目标域有无标签分类

  • 有监督迁移学习(Supervised Transfer Learning)
  • 半监督迁移学习(Semi-Supervised Transfer Learning)
  • 无监督迁移学习(Unsupervised Transfer Learning)

3、学习方法分类

  • 基于实例的迁移学习方法(Instance-based Transfer Learning)
  • 基于模型的迁移学习方法(Model-based Transfer Learning)
  • 基于特征的迁移学习方法(Feature-based Transfer Learning)
  • 基于关系的迁移学习方法(Relation-based Transfer Learning)
    解释:基于实例,就是权重重用,源域和目标域的样例进行迁移。对样本赋予不同权重,相似的样本权重更高。基于特征,对特征进行变换,假设源域和目标域的特征原来不在一个空间,或者说它们在原来那个空间上不相似,那就想办法把它们变换到一个空间里,于是这些特征的相似性便会大大增加。基于模型,即构建参数共享的模型。例如:SVM的权重参数、神经网络的参数。基于关系,挖掘和利用关系进行类比迁移。

4、按离线与在线形式分类

  • 离线迁移学习(Offine Transfer Learning)
  • 在线迁移学习(Online Transfer Learning)
    解释:离线即源域和目标域均是给定的,迁移一次即可。缺点是算法无法对新加入的数据进行学习,模型也无法得到更新。在线的方式,即随着数据的动态加入,迁移学习算法也可以不断地更新。

第二章 从机器学习到迁移学习

2.3数据的概率分布

真实应用中,训练数据和测试数据的数据分布不同:
在这里插入图片描述
与传统机器学习不同,迁移学习重点关注的数据分布情形恰恰是公式(2.3.2)所示的情形。
《迁移学习导论》--在读_第2张图片
《迁移学习导论》--在读_第3张图片

2.4 概念与符号

迁移学习中的一个重要概念:领域。
领域(Domain) 是学习的主体,主要由两部分构成:数据和生成这些数据的概率分布。我们通常用花体D来表示一个领域,领域上的一个样本数据包含输入x和输出y,其概率分布记为P(x,y),即数据服从这一分布:(x,y)~P(x,y)。一个领域可以被表示为:在这里插入图片描述
被迁移的领域、含有知识的领域通常被称为源领域(Sourcedomain,源域),而待学习的领域,则通常被称为目标领域(Target domain,目标域)

第三章 迁移学习基本问题

3.1–3.3:

1、何时迁移
对应于迁移学习的可能性和使用的原因。这是第一步,给定待学习的目标,首先判断当前的任务是否适合进行迁移学习。
何时迁移对应于一些理论、边界条件的证明,大多是一种理论上的保证。
2、何处迁移
要迁移什么知识,这些知识可以是神经网络权值、特征变换矩阵、某些参数等;从哪个地方进行迁移,可以是某个源域、某个神经元、某个随机森林里的树等。
何处迁移强调一个动态的迁移过程。在大数据时代,我们需要动态地从数据中学习出更适合迁移的领域、网络、分布等。
何处迁移可分为两个层次:1、数据集、数据领域层,如何找到最适合迁移学习的数据集和领域。2、样本层,如何从数据中选择出若干数据,使其最适合于迁移学习。
3、如何迁移 给定待学习的源域和目标域,要学习最优的迁移学习方法以达到最好的性能。
旨在建立最优的迁移方法以顺利完成迁移。

3.4失败的迁移:负迁移

迁移学习指的是利用数据和领域之间存在的相似性关系,把之前学习到的知识,应用于新的未知领域。
《迁移学习导论》--在读_第4张图片
产生负迁移的原因

  • 数据问题:源域和目标域压根不相似,谈何迁移?
  • 方法问题:源域和目标域是相似的,但由于迁移学习方法不够好,导致迁移失败。

3.5 完整的迁移学习过程

《迁移学习导论》--在读_第5张图片
——————————————————————————————

第二部分 方法与技术

第四章 迁移学习方法总览

4.1 迁移学习总体思路

迁移学习的核心是找到源域和目标域之间的相似性,这种相似性可以理解为不变量。
有了这种相似性后,下一步工作就是如何度量和利用这种相似性。度量工作的目标有两点:一是度量两个领域的相似性,不仅定性地告诉我们它们是否相似,更定量地给出相似程度;二是以度量为准则,通过我们所要采用的学习手段,增大两个领域之间的相似性,完成迁移学习。
一句话总结:相似性是核心,度量准则是重要手段

4.2 分布差异的度量

通过对源域和目标域不同的概率分布建模来刻画二者的相似性。
在迁移学习问题中,源域和目标域的联合概率分布不同,即:
在这里插入图片描述
数据分布的不同使得传统的机器学习方法并不能直接应用于迁移学习的问题。因此,迁移学习要解决的核心问题便是:源域和目标域的联合分布差异度量
《迁移学习导论》--在读_第6张图片
《迁移学习导论》--在读_第7张图片

4.3迁移学习的统一表征

我们期望迁移学习算法可以在目标域没有标签的情况下,还能借助于源域,学习到目标域上的一个最优的模型。在这个过程中能够运用一些手段来减小源域和目标域的数据分布差异。因此,我们从公式(2.2.1)SRM准则出发,可以将迁移学习统一表征为下面的形式:
在这里插入图片描述
《迁移学习导论》--在读_第8张图片
R(T(Ds),T(Dt))来代替SRM中的正则化项R(f),称之为迁移正则化项。
统一表征下,迁移学习的问题可以被大体概括为寻找合适的迁移正则化项的问题。也就是说,相比于传统的机器学习,迁移学习更强调发现和利用源域和目标域之间的关系,并将此表征作为学习目标中最重要的一项。
通过对公式(4.3.1)中vi和T取不同的情况,对迁移学习的方法进行表征,派生出三大类迁移学习方法:
《迁移学习导论》--在读_第9张图片
1、样本权重迁移法:
两个领域之间相似度越高,迁移学习的表现越好。我们从源域中选择一个数据样本子集,使得选择后的子集可以足够表征源域中的所有信息。这个操作可以通过对vi的求解达成。
2、特征变换迁移法:
特征变换迁移法与概率分布差异的度量直接相关。
特征变换法大致分为两大类别:统计特征变换和几何特征变换。其中,统计特征变换的目标是通过显式最小化源域和目标域的分布差异来进行求解;而几何特征变换的目标则是从几何分布出发,隐式地最小化二者的分布差异。
3、模型预训练迁移法:
预训练–微调。

总结:
《迁移学习导论》--在读_第10张图片

第五章 样本权重迁移法

从有标记的源域数据中筛选出部分样本,使得筛选出的数据所形成的概率分布可以与目标域数据的概率分布相似,再使用传统的机器学习方法建模。
数据筛选可以等价于如何设计有意义的样本权重规则(数据筛选可以看成权重的特例,例如可以简单地用权重值为1和0来表示选择或不选择某个样本)

5.2基于样本选择的方法

基于样本选择的方法假设源域和目标域的边缘分布近似相等,即Ps(x)≈ Pt(x)。
《迁移学习导论》--在读_第11张图片

  • 样本选择器(Instance Selector)f。其作用是从源域中选择出一部分样本(Subset)使得这部分样本的数据分布与目标域数据分布差异较小。
  • 表现评估器(Performance Evaluator)g。其作用是评估当前选择的样本与目标域的量化差异程度。
  • 反馈(Reward)r。其作用是根据表现评估器的结果,对样本选择器选择出的样本进行反馈,指导其后续的选择过程。

5.3基于权重自适应的方法

样本权重法则假设源域和目标域的条件分布大致相同,即Ps(y|x)≈ Pt(y|x),而边缘分布不同Ps(x)≠ Pt(x)。

第六章 统计特征变换迁移法

6.1问题定义

迁移学习可以被统一表征为:
在这里插入图片描述
此类方法的核心是学习特征变换函数T
《迁移学习导论》--在读_第12张图片
两种方法的核心是寻求一种显式或隐式的距离度量,使得在此距离度量下,源域和目标域的数据分布差异可以减小

6.2最大均值差异法(Maximum Mean Discrepancy,MMD)

基于最大均值差异的方法可被视为基于给定的距离度量(即MMD)来求得特征变换T。
对于两个概率分布p和q,假设p=q,根据不同的两样本检验方法可以决定接收或拒绝这个假设。
《迁移学习导论》--在读_第13张图片
《迁移学习导论》--在读_第14张图片
MMD就是求两个概率分布映射到另一个空间中的数据的均值之差。

6.3 度量学习法

你可能感兴趣的:(读书笔记,机器学习,深度学习,机器学习,神经网络)