【论文笔记05】Active Transfer Learning, IEEE T CIRC SYST VID 2020

目录导引

  • 系列传送
  • Active Transfer Learning
  • Reference

系列传送

我的论文笔记频道

【Active Learning】
【论文笔记01】Learning Loss for Active Learning, CVPR 2019
【论文笔记02】Active Learning For Convolutional Neural Networks: A Core-Set Approch, ICLR 2018
【论文笔记03】Variational Adversarial Active Learning, ICCV 2019
【论文笔记04】Ranked Batch-Mode Active Learning,ICCV 2016

【Transfer Learning】
【论文笔记05】Active Transfer Learning, IEEE T CIRC SYST VID 2020
【论文笔记06】Domain-Adversarial Training of Neural Networks, JMLR 2016

Active Transfer Learning

原文传送

Transfer Learning
Negative Transfer
Active Learning
Reproducing Kernel Hibert Space
Frobenius norm

思想 这篇文章旨在挑选出informative and discriminative subsets that are class balanced and highly similar to the target domain. 来解决迁移学习中可能遇到的negative transfer问题。简而言之,作者要做的事情包括

  • 最小化MMD,并且从source domain中取出一些样例.
  • 保证选取的样例满足
    • 1)类别平衡
    • 2)有较好的数据分布广度(diversity)
    • 3)和target domain中的样例相似。

按照传统的最小化Maximum Mean Discrepancy(MMD)方法,加上对数据加权,就可以学习到一个正交投影以及source domain中的样本权值。样本权值越大,越和target domain中的数据相似,那么我们更倾向于选择他们。

第二大目标的1)2)两点需要对权值 α \alpha α 在优化过程中加上新的限定。一方面引入矩阵 K K K, 其元素 k i , j = [ [ x l i = x l j ] ] k_{i,j}=[[xl_i=xl_j]] ki,j=[[xli=xlj]]。也就是说如果第i个样例和第j个样例属于同一类,那么对应下标元素取1,否择取0。另一方面引入矩阵 W W W,与前一个矩阵原理相似但是功能不同。
w i j = [ [ ϕ ( i , j ] ] ) = { 1 , if  x i ∈ N k ( x j )  or  x j ∈ N k ( x i ) 0 , otherwise w_{ij}=[[\phi(i,j]])=\left \{ \begin{aligned} 1&, \text{if } x_i\in N_k(x_j) \text{ or } x_j \in N_k(x_i) \\ 0&, \text{otherwise} \end{aligned} \right. wij=[[ϕ(i,j]])={ 10,if xiNk(xj) or xjNk(xi),otherwise
如果第i个元素属于第j个元素的k近邻,或者第j个元素属于第i个元素的k近邻,那么 W W W 矩阵中对应下标元素取1,否择取0。 这两个矩阵中取1的部分,都是为了最小化这两个元素的权值积 α i α j \alpha_i \alpha_j αiαj,使得他们不同时成为高 α \alpha α 而被选择。

综合以上三个部分,Active Transfer Learning(ATL)的损失函数为
min  L ( P , α ) = ∣ ∣ 1 s ∑ i = 1 s P T x i α i − 1 t ∑ j = 1 t P T y j ∣ ∣ F 2 + λ 1 ∑ i = 1 s ∑ j = 1 s α i α j k i , j + λ 2 ∑ i = 1 s ∑ j = 1 s α i α j w i , j s.t. P T P = I . ∑ i = 1 s α 1 = 1 , α i ⩾ 0. \text{min } \mathcal{L}(P,\alpha)=|| \frac{1}{s}\sum_{i=1}^s P^T x_i \alpha_i - \frac{1}{t}\sum_{j=1}^t P^T y_j ||^2_{F}+\lambda_1 \sum_{i=1}^s \sum_{j=1}^s \alpha_i \alpha_j k_{i,j} + \lambda_2 \sum_{i=1}^s\sum_{j=1}^s \alpha_i \alpha_j w_{i,j} \\ \text{s.t.} \quad P^TP=I.\quad \sum_{i=1}^s \alpha_1=1,\alpha_i \geqslant 0. min L(P,α)=s1i=1sPTxiαit1j=1tPTyjF2+λ1i=1sj=1sαiαjki,j+λ2i=1sj=1sαiαjwi,js.t.PTP=I.i=1sα1=1,αi0.

其中 F F F是Frobenius norm of a matrix; λ \lambda λ是两个超参数,调整这三部分的重要程度关系; s s s是source domain中的样例个数; t t t是target domain中的样例个数; P ∈ R d × r P\in R^{d\times r} PRd×r是一个orthogonal projection matrix, 负责把d维度的source domain上的数据映射到r维度的common subspace上; α = [ α 1 , . . . α s ] T ∈ R s × 1 \alpha=[\alpha_1,...\alpha_s ]^T \in R^{s\times 1} α=[α1,...αs]TRs×1是source data的weight coefficient vector.

优化这个损失函数的方法在文章中的PART III. Efficient Optimization. 优化的结果就是返回一个orthogonal projection matrix P P P 以及 weight coefficient vector α \alpha α. 文章在实验部分通过 α i \alpha_i αi 的降序排列选择前 20 % , 40 % , 60 % , 80 % 20\%,40\%,60\%,80\% 20%,40%,60%,80% 的数据以生成新的source domain,并在上面使用学到的 P P P 以进行transfer learning. 在多组数据集上的测试都表明ATL算法性能的优越性。

Reference

Peng, Zhihao, et al. “Active transfer learning.” IEEE Transactions on Circuits and Systems for Video Technology 30.4 (2019): 1022-1036.

你可能感兴趣的:(论文笔记,机器学习,人工智能,python,迁移学习)