[cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors

三个散度矩阵:
[cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors_第1张图片
[cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors_第2张图片
[cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors_第3张图片
LDA上的三个散度矩阵

introduction

  • 作者将自己的模型称为Second or
    Higher-order Transfer of Knowledge (So-HoT),是一个对source domain和target domain之间进行二阶或者更高阶次的统计量的一个对齐(alignment).
  • 作者使用二阶或者更高阶的scatter 张量,source domain一个,target domain一个
  • scatter张量从AlexNet的fc7建立
  • 作者建议,因为source domain和target domain仅仅通过他们的共有部分相关联,所以source domain和target domain的类内散度(within-class scatters)应当被调整到一个适当的程度(较小),来捕获source domain和target domain之间共同的分布。并在此同时,类间散度(between-class scatters)应该较高以保持判别性
  • 作者认为,source domain和target domain当中不同的类可能需要以不同的方式进行对齐(alignment),因为source domain和target domain中的共有部分可能和类相关。
  • (?unweighted和weighted,不清楚对什么加权)we investigate not only an unweighted
    alignment loss (class-independent level of alignment) but also its weighted counterpart which learns
    one weight per class (class-specific levels of alignment).
  • 作者使用2阶或者更高阶张量的时候采用了核方法,速度更快

The Commonality

  • 传统的想法认为,预测的做出必须基于“无法去区分是来自source domain或者target domain”的特征(domain-invariant feature)
  • 作者则是将共同的部分(The Commonality)定义为source domain和target domain在二阶或者更高阶次的scatter后重叠的部分
  • 但是作者也会使用非重叠的部分进行学习,作者认为这样得出的分类器更具有一般性(能够避免域特定偏差(domain-specific bias)

Tensor Methods

  • 3阶以上的张量在机器学习中是有用的
  • 作者使用张量作为域和类的特定表示,类似于核方法,并把它们用于对齐任务(alignment task)。

Background

Notations[cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors_第4张图片

Second- or Higher-order Scatter Tensors

  • r阶散度张量如下:
    [cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors_第5张图片
  • 作者提出说在AlexNet的 fc7 层输出这个张量 X ,当需要特殊说明这是 r 阶散度张量的时候,会使用 X(r)
  • X 的性质:
    [cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors_第6张图片

    • 超对称性:改变 X 的下标的排列不会影响到 X 中独立的参数的个数
    • 对于任意偶数阶次的 X ,他所有切片(slice)都是半正定的。特别地,当 X 为2阶时, X 就是协方差矩阵
    • (奇数阶次的我没看懂,说是核心张量(core-tensor)可以有正、负、0)
    • 作者说使用欧式距离来表达各个张量 X 之间的距离
  • frobenius范数的性质(作者貌似把这个拿来当成欧式距离)
    [cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors_第7张图片

  • 内积的性质:
    [cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors_第8张图片

Proposed Approach

Problem Formulation

  • 定义( Φ 是数据的特征向量, X 是scatter张量):
  • [cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors_第9张图片
  • 损失函数总形式:

    [cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors_第10张图片
    • 包括分类损失(classfier loss)和建立在scatter 张量基础上的alignment loss(对齐损失?)
    • 分类损失使用Softmax,并且分类是对source domain和target domain同时进行(参数共享))。 λ||W||2F 项是为了使 W 更小
    • alignment loss(对齐损失) g(Φ,Φ) 由特征向量的scatter 张量 X(Φ) 和均值 μ(Φ) ,特征向量source domain和target domain参数不共享。每个域的每一个类都有自己的 Xc 或者 Xc μc 或者 μc (现在为止我很好奇target domain作者你要怎么分类)。 σ1 σ2 控制均值和scatter张量对齐的程度, τ1 τ2 则限制特征向量 ϕ 不至于过大

Weighted Alignment Loss

  • 作者在对齐损失中引入了类特定权重(class-specific weights)
  • 作者将所有除了阶次1的scatter张量都拿来加入了损失函数(最高到阶次 r
  • α1 α2 控制了权重的梯度
    [cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors_第11张图片

Kernelized Alignment Loss

  • 梯度下降期间使用scatter
    张量进行计算开销很大,所以作者对frobenius范数采用了核方法
  • 作者用多项式核表示了两个scatter张量的内积
    [cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors_第12张图片
    [cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors_第13张图片
    复杂度计算:
    [cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors_第14张图片

Experiments

(自行参看原论文)

你可能感兴趣的:(机器学习,domain,adaptation)