IJCAI2019|新型特征增广GBDT--AugBoost(已开源)

AugBoost: Gradient Boosting Enhanced with Step-Wise Feature Augmentation

Philip Tannor, Lior Rokach

Tel-Aviv University, Ben-Gurion University of the Negev

https://www.ijcai.org/proceedings/2019/0493.pdf

GBDT是一种广泛应用的机器学习算法,在很多任务中都取得了SOTA结果。

这篇文章针对GBDT提出一种特征增广的方法,并且取得了较好的效果。对多种特征增广方法进行了探索,利用神经网络的最后一个隐含层来提取特征,该方法是有监督的;或者利用无监督方法,如PCA或者随机映射将特征空间进行旋转。

作者将这几种方法在20个分类数据集上进行测试,结果优于GBDT及之前的相关方法。

本文主要探索如何针对GBDT进行有监督的特征增广,先前已有针对RF如何进行无监督特征增广。

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第1张图片

本文主要贡献如下,提出了AugBoost-ANN, AugBoost-PCA, AugBoost-RP。

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第2张图片

GBDT数学表述如下

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第3张图片

基于梯度的表示方式如下

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第4张图片

贪婪式二阶段解释如下

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第5张图片

更进一步的,一些参数计算及更新方式如下

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第6张图片

基于ANN进行特征增广的训练流程示意图如下

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第7张图片

基于AugBoost-ANN的推理过程图示如下

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第8张图片

利用PCA进行特征增广的方法描述如下

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第9张图片

基于RP进行特征增广方法跟PCA的类似,不再赘述。

这两种方法跟基于ANN的方法区别如下

640?wx_fmt=png

一些实现细节描述如下

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第10张图片

实验中的一些细节和设置如下

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第11张图片

关于如何使用PCA,一些细节如下

640?wx_fmt=png

树的个数及增广细节如下,这里的BA为Between Augmentations

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第12张图片

下面是训练算法伪代码

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第13张图片

关于上述伪代码,一些需要注意的点如下

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第14张图片

在多个数据集上多种方法的实验结果对比如下

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第15张图片

在学习曲线及泛化性能方面的实验结果如下

640?wx_fmt=png

对应的图示如下

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第16张图片

一些假设检验的结果如下

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第17张图片

n_BA的影响很大,不同的取值影响如下

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第18张图片

一些结论如下,如降维不会提升结果,利用RP升维可能会明显降低准确率。IJCAI2019|新型特征增广GBDT--AugBoost(已开源)_第19张图片

代码地址

https://github.com/ptannor/augboost


              smiley_12.png我是分割线smiley_12.png


您可能感兴趣

你可能感兴趣的:(IJCAI2019|新型特征增广GBDT--AugBoost(已开源))