论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion

目录

  • 1、文章贡献
  • 2、迁移学习
  • 3、迁移学习算法目标
  • 4、迁移学习算法框架
  • 5、理论分析
  • 6、算法局限
  • 7、实验

论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第1张图片

1、文章贡献

为了解决金融产品中新用户数据及标签获取困难等问题,发展普惠金融,文中提出了新的迁移学习算法TransBoost,对传统迁移学习方法核均值匹配KMM模型进行了推广,将提升树作为内核来结合树模型和内核方法的优点,能够处理高维特征和稀疏数据,提高了金融包容性。

2、迁移学习

迁移学习简单地来说就是从已学习的相关任务中转移知识来适应新的学习目标。

  • 传统迁移学习算法:例如基于内核的算法KMM虽具有健全的理论性质,但计算昂贵,通常需要O(n√n)的时间复杂度。
  • 深度学习迁移学习算法:例如DAAN、DDAN、DSAN,能成功地应用于视觉、音频和神经语言处理任务,但是模型缺乏可解释性。
  • TransBoost:一种新的迁移学习方法,在传统KMM基础上将提升树作为内核,使时间复杂度减少到O(n),能处理高维特征和稀疏数据,具有较高的预测精度且有良好的可解释性。

3、迁移学习算法目标

  • 从一个简单的学习问题开始,首先定义一个迁移学习目标函数来优化学习器ht:
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第2张图片
    其中LT (h)是分类器ht对目标域中实例的期望损失,L是交叉熵损失。
    但在实际应用中,由于目标域实例的稀疏性和高维诅咒,直接优化分类器往往会导致较大的预测误差。为了缓解这一问题,可以使用迁移学习方法利用源域的信息作为先验知识来提高模型在目标域上的性能。
  • 然而许多应用中目标域和源域是相关的,但仍不同。为解决这个问题,在损失函数中为源域中的实例分配权重:
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第3张图片
    其中损失是通过源域中重新加权的实例来估计。
  • 权重β是目标域和源域联合分布的比例,联合分布可以用边缘分布和条件分布的乘积来表示:
    在这里插入图片描述
  • 在实践中,TransBoost的总体目标函数是重新加权的源域和目标域的正则化损失总和:
    在这里插入图片描述
    其中β是联合分布的权重,λ是平衡源域和目标域损失的超参数,Ω是正则项。

4、迁移学习算法框架

TransBoost算法整体框架由两个并行的GBDT组成,共享相同的树结构但有不同的节点权重。(一方面相同的树结构可以在源域和目标域上产生相同的分区,从而能在学习过程中匹配边缘分布;另一方面,不同的权重提供了学习不同条件分布的灵活性)

  • 在第k次迭代中,目标域的目标优化为:
    在这里插入图片描述
  • 源域的目标优化为:
    在这里插入图片描述
    由于传统的基于核技巧的重新加权方法的主要缺点在于求解二次优化问题的计算成本通常有O(n√n)的时间复杂度;而文中更新权重时,只使用第k棵树构造内核,没有去解决二次规划问题。即在第k次迭代增加提升树后,将目标函数中的权重更新为:
    在这里插入图片描述
    其中Iq(xi)表示源域实例xi所属的叶子的实例集;n是目标域实例数,m是源域实例数;ht(x)是目标域主模型对x的估计,hs(x)是源域辅模型对x的估计。
  • 算法流程及图示如下:
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第4张图片
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第5张图片

5、理论分析

在高维数据中,联合分布之比很难估计。文中采用三种方式构建KMM框架:

  • 首先,采用提升树作为内核,由于来自训练数据,跟传统内核相比更加灵活。
  • 其次,只使用最后添加的树来构造树内核,以便更有效地计算实例权重。
  • 再次,构建KMM来匹配联合分布而不是边缘分布。

Proposition 1

  • 当使用树内核时,KMM中边缘分布的最佳抽样权重调整是:
    在这里插入图片描述
    其中n表示Iq(xi)中的目标域实例数,m表示Iq(xi)中的源域实例数;NS表示源域的样本总数,NT表示目标域的样本总数。
  • 证明
    把源域中的节点按照叶子排序,核函数K(xi, xj)在源域中就是一个块对角矩阵:
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第6张图片
    此时核函数是半正定的,通过优化β来找到最佳比例估计:
    在这里插入图片描述
    其中大K是上面的对角矩阵,小k由以下式子表示(xi是源域数据,xj’是目标域数据):
    在这里插入图片描述
    为了得到最佳权重β,将目标函数通过叶子重新排序(注意相同的叶子会有相同的权重):
    在这里插入图片描述
    从而得到KMM边缘分布的最佳抽样权重调整βmarginal。

Proposition 2

  • 对于二分类问题,目标域和源域条件分布的比例可以通过两个并行的GBDT的拟合来近似:
    在这里插入图片描述

Proposition 3

  • 匹配联合分布的最佳权重为:
    在这里插入图片描述
  • 证明
    为推广KMM方法来匹配二分类问题的联合分布,将节点按照叶子排序,定义一个新的类似内核的函数:
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第7张图片
    通过叶子和标签对目标函数进行重新排列:
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第8张图片
    得到解为:
    在这里插入图片描述
    通过边缘分布和条件分布的乘积得到联合分布的最佳权重,即为在第k次迭代增加提升树后更新的权重:
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第9张图片

6、算法局限

TransBoost是一个领域知识无关的算法,该算法仅基于局部平滑假设。在以下三种情况下,框架可能会失败。

  • 1、当数据是从特征的组合中生成时,源域和目标域之间可能存在共享的非局部特征,此时框架可能无法很好的工作。
  • 2、当领域知识发挥重要作用时,从正则化的角度来看,领域知识可以被建模为一个特殊的正则化项,而文中算法只应用了局部平滑正则化,可能性能不佳。
  • 3、当源域和目标域不相关时,目标域的权重会增加,源域的权重会衰减,此时算法的性能将与仅使用目标域作为输入的模型非常相似。

7、实验

数据集(二分类):

  • 腾讯移动支付(源域:成熟的金融产品,目标域:新产品)
  • 贷款(源域:2015年医疗贷款,目标域:2016年第一季度汽车贷款)
  • 葡萄酒质量(源域:红葡萄酒,目标域:白葡萄酒)

比较算法:
传统迁移学习

  • KMM:通过匹配RKHS中的均值来估计源实例的权重,以适应边际分布。
  • TrAdaBoost:扩展了AdaBoost,为相同的分布样本分配更大的训练权重。
  • JDA:在固定平衡因子的低维特征空间中最小化边际和条件分布差异。
  • CORAL:通过构建转换矩阵来对齐二阶统计特征。
  • BDA:利用动态平衡因子最小化低维特征空间的边际分布差和条件分布差。

基于深度学习的迁移学习

  • DAAN:一种深度对抗网络,通过评估全局和局部分布的重要性,动态学习域不变表示。
  • DDAN:一种深度网络,定量评估边际分布和条件分布的重要性。
  • DSAN:一种基于局部最大平均差异对齐相关子域分布的深度传输网络。

比较维度:

  • 预测准确性(AUC)
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第10张图片
    传统方法KMM等无法应用于大体积、高稀疏性的腾讯移动支付数据集
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第11张图片
  • 运行时间
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第12张图片
  • 处理稀疏数据的稳健性
    腾讯移动支付数据集本质上是稀疏的,总体不丢失率为26.8%。进一步降低不缺失率,在训练样本中随机设置更多的特征值为NULL来模拟稀疏度为1%—25%的数据集。
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第13张图片
  • 模型可解释性
    对贷款数据特征重要性进行可视化,重要度较高的贷款利率、交易数量、负债率和支付金额对预测贷款违约行为有重要意义。
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第14张图片
  • 金融包容性
    对贷款数据,假设违约率从8%到12%,计算不同算法下的贷款批准比率。
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第15张图片
    进一步分析在违约率为8%和10%的情况下,被批准用户的平均年收入和租房比例。
    论文解读13——TransBoost: A Boosting Tree KernelTransferLearningAlgorithm for ImprovingFinancial Inclusion_第16张图片
    TransBoost选择的用户总体上比其他算法选择的用户收入更低,租房比例更高。这表明,与其他算法相比,TransBoost不仅为更广泛的用户提供了金融服务,而且不承担更高的金融风险。

实验结果总结:
TransBoost相比其他迁移学习算法,有更高的预测准确率(AUC值);在保持效率的情况下实现了更高的预测精度;在处理稀疏问题上有更好的稳健性;有良好的可解释性;可以捕捉因独特信息被其他算法排除在外的实例,提高了金融包容性。

你可能感兴趣的:(论文解读,boosting,迁移学习,决策树)