ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)

Gradient Boosted Decision Trees

Boris Sharchilev, Yury Ustinovsky, Pavel Serdyukov, Maarten de Rijke

University of Amsterdam, Yandex, Princeton University

ICML 2018

http://proceedings.mlr.press/v80/sharchilev18a/sharchilev18a.pdf

这篇文章旨在解决如何寻找特定集成树算法模型中影响较大的训练样本,这里的集成树算法包含随机森林(RF)和梯度提升决策树(GBDT)等。

针对这种问题,一种自然的方式就是研究留一重训练对模型预测结果的影响,留一重训练方法每次都是从训练样本中留出一个不参与训练。

最近一些研究表明,对于参数模型,这种分析的实现在计算上可以更高效。借鉴这种思路,作者们提出几种扩展该框架的方法,使其适用于非参数GBDT集成模型,其中包含一个假设,即树结构是固定的。此外,作者们提出一种通用方案,能够对性能和计算复杂度进行折衷平衡,同时可以更好地对所提方法加以近似。

在多个实验场景和用例情景中的实验表明,这篇文章所提方法找到的有影响力的训练样本相对基准方法质量较好,计算也比较高效。

这篇文章利用两种方法来度量影响力。一种基于留一重训练,一种基于影响力函数。不仅可以处理训练样本扰动对树结构的影响,而且可以通过预计算特定梯度来降低计算复杂度。

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第1张图片

实验中主要验证了三件事情

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第2张图片

GBDT问题描述如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第3张图片

其中一种基于梯度法

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第4张图片

另一种基于牛顿法

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第5张图片

这篇文章的符号定义如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第6张图片

留一法的数学表示如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第7张图片

本文对留一法重训练做了以下假设

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第8张图片

上述LeafRefit算法对应的伪代码如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第9张图片

这种算法比较耗时,这是因为针对每个样本都需要重新计算梯度

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第10张图片

对于LeafRefit算法,基于一种可分子集(不相交)的假设,可以得到FastLeafRefit算法

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第11张图片

FastLeafRefit算法对应的伪代码如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第12张图片

其中LeafRecalc算法对应的伪代码如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第13张图片

针对上述的更新集,策略主要有SinglePoint, AllPoints以及TopKLeaves(k)等

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第14张图片

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第15张图片

针对第三种策略(TopKLeaves(k)),其复杂度分析如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第16张图片

实验表明,留一法重训练的假设通常不成立,比如

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第17张图片

但是,可以利用关于样本权重的梯度来衡量小的扰动对模型结果的响应。

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第18张图片

LeafInfluence算法对应的伪代码如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第19张图片

其中6式为

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第20张图片

8式为

640?wx_fmt=png

数据集、对比算法及衡量标准信息如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第21张图片

数据集信息统计如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第22张图片

不同数据集上的参数设置如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第23张图片

数据集分割信息如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第24张图片

不同方法效果对比如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第25张图片

不同方法在几个数据集上的耗时对比如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第26张图片

可以得到以下结论

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第27张图片

不同方法在不同数据集上的噪声监测roc-auc对比如下

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)_第28张图片

代码地址

https://github.com/bsharchilev/influence_boosting

相关论文及代码

Understanding Black-box Predictions via Influence Functions, ICML 2017

https://github.com/kohpangwei/influence-release


              smiley_12.png我是分割线smiley_12.png


您可能感兴趣

你可能感兴趣的:(ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源))