TCA详解

                                  基于迁移成分分析的域适配

1.摘要

        域适配允许将来自源域的知识迁移到与其不同但相关的目标域。通俗解释是发现一个良好的跨域特征表示。本文提出通过TCA来寻找这种特征表示,即TCA使用MMD在再生核Hilbert空间中学习一些跨域的迁移成分。在这些迁移成分跨域的子空间中,数据属性被保留,且不同域的数据分布相互接近。最后,利用该子空间中的新特征表示,应用标准的机器学习方法在源域训练分类或回归模型在目标域中使用。

2.算法框架

       大多数域适配方法都假设两个领域的边缘分布不同,即P!=Q,但条件分布相同,即P(Ys|Xs)= Q(Yt|Xt)。然而,在实际应用中,由于数据的噪声或动态因素,条件概率分布也可能在域间发生变化。本文的策略是假设边缘分布不同,即P!=Q,学习一个映射函数φ,使得边缘分布P(φ(Xs))≈P(φ(Xt))和条件分布P(Ys |φ(Xs))≈P(Yt|φ(Xt));然后,利用标准监督学习方法应用标签Ys和映射源域数据φ(Xs)训练源域模型,并将其用于目标域映射后的数据φ(Xt)建立目标域模型。所以,关键问题则是如何找到这个映射函数φ。

       本文所针对的情况是目标域没有标记数据,所以不能通过直接最小化P(Ys|φ(Xs))和P(Yt|φ(Xt))之间的距离来学习φ。φ需满足条件:

1.边缘分布P(φ(Xs))和P(φ(Xt))之间的距离很小;

2.φ(Xs)和φ(Xt)保持着Xs和Xt之间的重要性质;

2.1基本思路

        假设φ是核的特征映射。如下式所示,两个分布之间的边缘分布距离P和Q可以用两个域的经验平均值之间的距离来表示:

        因此,通过最小化可以得到一个理想的非线性映射φ。然而,φ通常是高度非线性的,很难直接通过最优化获得φ。

        本文则使用基于降维的域适配方法MMDE,而不是显式地寻找非线性变换φ,引入核矩阵K。

 

        其中,在源域、目标域和跨域数据上的Gram矩阵,分别为Kss、Ktt和Kst。

       将所有数据以核矩阵的形式表示,减少投影后的源和目标域数据之间的距离,并最大化数据方差。借助于核技巧,MMD距离写成另一种形式,即tr(KL) MMDE的目标函数最后可写为:

TCA详解_第1张图片

       其中,第一项表示最小化分布之间的距离,第二项表示特征空间中的方差最大化,而λ≥0是一个平衡参数。

       然而,MMDE也存在一些局限性。所以,本文提出了一个基于核特征提取的非线性映射φ的有效框架,它避免了使用SDP求解,从而减少了计算量。

2.2目标函数

      1. 将核矩阵K进行分解,称为经验核映射:

      2. 利用矩阵W~将经验核映射特征转换为m维空间,核矩阵表示为:

      其中,任意两个xi和xj之间对应的核值是,

     3. 利用K~的公式,可将两个域中数据Xs和Xt的经验平均值之间的MMD距离重写为:

    4. 在域适配中,仅通过最小化边缘分布P(φ(Xs))和P(φ(Xt))之间的距离来学习映射函数φ是不够的。如下图(a)所示,源域数据为红色,目标域数据为蓝色。对于这两个区域,x1用于区分正样本和负样本,而x2是一个数据小方差的噪声维度。

TCA详解_第2张图片

       如图(b)所示,其中最大方差(x1)的方向不能用于缩小域间分布的距离,并且无助于提高域适配的性能。除了减少两个边缘分布之间的距离外,φ还应该保留对目标监督学习任务有用的数据属性,则需最大限度地保留数据方差,如PCA和KPCA所执行的那样。因此,投影样本的方差可表示为:

 

       其中,H为中心矩阵;1为值为1的列向量;I为单位矩阵。

       结合以上的观测结果,本文提出一种新的域适配降维方法,使得在低维空间中,不仅可以尽可能地保持数据的方差,并且可以缩小不同分布域之间的距离。然后,最终的核学习问题表示为:

      其中,μ>0是一个平衡参数;I是单位矩阵;正则化项tr(WTW)来控制W的复杂性。

2.3 求解过程

       命题:问题(6)可以重新表示为:

      证明:问题(6)拉格朗日形式表示为:

     其中,Z是包含拉格朗日乘子的对角矩阵;

     1. 式(8)关于W的导数为0,可得:

    2. 等式两边同乘以WT,可得:

    3. 类似于核Fisher判别分析,可得W的解:

        是m个特征向量,其中m≤n1+n2−1。

2.4伪代码

TCA详解_第3张图片

3. 代码实现

 

你可能感兴趣的:(迁移学习)