Paper Reading Note
URL: https://arxiv.org/pdf/1903.04687.pdf
19年所做的对迁移学习和域适应(作者统称为Transfer Adaptation Learning,TAL)的综述,总结了five key challenges of TAL以及TAL模型测试的12个benchmark.作者认为TAL研究的五大关键技术是:
五个领域细分的taxonomy我自己画了一张图概括,全文的信息量对刚接触TL的同学来说非常大,详细的介绍见note正文.个人认为对我们的工作意义较大的部分是DNN Adaptation和Adversial Adaptation,
Information below is optional; you can change/remove it if you like
样本迁移,在源域中找到与目标域相似的数据,把这个数据的权值进行调整,使得新的数据与目标域的数据进行匹配,然后加重该样本的权值,使得在预测目标域时的比重加大.单纯的Instance Re-Weighting方法适用于source与target 分布差距不大时,差距较大时Instance Weighting一般与其他技术共用.样本迁移的方法可分为三个子模型:
最早的朴素Instance Reweighting方法,即学习权重使source domain的数据分布接近target domain
Intuitive Re-Weighting是在raw dataspace上操作的,而Kernel Mapping Based-ReWeighting是通过kernel mapping,使source和target在再生的希尔伯特核空间(RKHS)上距离最小化(距离衡量用MMD或KMM)做Distribution Mapping.核映射后两个域的边缘分布相似,但条件分布仍不同,可以利用Sample Selelction做进一步变换,可以利用cluster assumption做聚类,选取同一个cluster中标签相同的source samples,另一种方法是TJM model, 给变换矩阵加上范数正则项排除Outliers:
共同训练法, 首先分别在每个视图上利用有标记样本训练一个分类器;然后,每个分类器从未标记样本中挑选若干标记置信度(即对样本赋予正确标记的置信度)高的样本进行标记,并把这些“伪标记”样本(即其标记是由学习器给出的)加入另一个分类器的训练集中,以便对方利用这些新增的有标记样本进行更新。
利用子空间变换做无监督域适应,代表有sampling geodesic flow(SGF),geodesic flow kernel(GFK) and subspace alignment(SA),共同的假设是数据可在低维线性子空间表示,常用PCA做降维, 然后在子空间上做域适应,有两种思路:
对数据做变换或映射使source domain和target domain的分布尽量match.CV领域迁移学习的主流之一,可分为:
Projection-Based:学习一个源域和目标域之间的映射矩阵最小化分布差异
Metric-Based: 在带标签的源域上学习一个合适的distance metric,使之也适用于目标域
Augementation-Based:特征增强方法,假设数据的特征可分为common,source specific,target specific三种,基于此进行数据增强
利用source domain重建target domain以学习共同特征,排除outliers和噪音,对reconstruction矩阵加以rank或sparsity的限制以更好地学习两个领域的相关性
Feature Reconstruction是在两个领域的raw feature上学习reconstruction coefficients,而feature coding的方法注重于 seeking a group of basis (i.e., dictionary)
and representation coefficients in each domain, 所以又称为域适应字典学习(domain adaptive dictionary learning).
分类器适应,利用source domain的大量带标注数据和target domain的少量带标注数据学习一个generic classifier
基于核方法,一种思路是ASVM,在SVM中加一个bias item:
另一种是基于multiple kernel learning(MKL), MMD based kernel matching
metric d k 2 ( ) d_k^2() dk2() was jointly minimized with the structural risk based classifiers
流形正则化方法,有兴趣的同学可以参考经典论文Manifold Regularization: A Geometric Framework for Learning from Labeled and Unlabeled Examples.这种方法基于半监督学习的manifold assumption,即假设特征空间中距离近的样本属于同一类别的可能性较大.核心是挖掘边缘分布的几何形状,将其作为一个增加的正则化项,用了有监督和无监督样本共同来挖掘这一个数据分布的几何结构,这样训练出来的分类器就有更好的泛化性.
通过对先验知识建模弥补数据不足带来的泛化性能损失,本人对贝叶斯学习不够了解,有待阅读相关paper后补充:
DNN适应,研究如何将DNN学习到的特征在不同领域间迁移,个人认为这是迁移学习和我们的工作最相关的部分,基于instance,feature,classifer的方法都可以整合到这里来.
作者列出了很多paper,本人认为与我们的工作密切相关且值得一读的有:
作者将DNN Adaptation 分为三个子领域:
边缘分布对齐,将source domain和target domain各层特征的MMD距离加入损失项,代表是DDC和DAN,模型可表述为:
J J J是交叉熵损失函数, θ \theta θ是特征映射函数, D l D^l Dl指网络在第l层输出的特征,边缘对齐 d m a 2 ( ) d^2_{ma}() dma2()是边缘分布对齐的函数(即MMD).这个式子没有考虑网络在目标域的输出,可以用uncertainty minimization解决这个问题:
在4.1的基础上多考虑语义信息,定义了与MMD类似的 d c a d_{ca} dca,将条件概率项加入到损失中
用source data训练encoder,用decoder表征target data来做Adaptation.Stacked deep autoencoder用于TAL的General idea可以用这个式子表示:
f f f是共用的encoder, g g g是共用的decoder, z z z是中间特征, J J J是reconstruction error(均方根误差), Ω \Omega Ω是衡量source和target feature分布差距的distribution discrepancy metric, L L L是带标签源域上的分类损失, R R R是参数正则项. Ω \Omega Ω可用KL散度表示,参见Supervised reparesentation learning: Transfer learning with deep autoencoders,
对抗式适应,基于GAN的思想,使特征生成和域分类器进行对抗训练啊,直到两个领域的分布难以区分.作者介绍了三类方法,前两种是基于特征进行domain discrimination,第三种是用GAN生成target domain的图像.
在网络中加入gradient reversal layer(GRL).模型由三部分构成:domain-invariant的特征表示模型,参数 θ f \theta_f θf,图像分类器,参数 θ c \theta_c θc,域分类器,参数 θ d \theta_d θd.学习特征表示参数 θ f \theta_f θf时,最小化图像分类器的损失 L c L_c Lc,最大化域分类器的损失 L d L_d Ld.
用GAN生成target domain的图像,代表工作有基于CycleGAN的CyCADA和DupGAN等.
这篇论文是非常详尽的迁移学习综述,其中DNN-Based和GAN-Based的方法非常契合数据标注研究的需要,值得进一步调研.