Gradient Boost Decision Tree 是当前非常流行的机器学习算法(监督学习),本文将从渊源起逐层讲解 GBDT,并介绍目前流行的 XgBoost。另有“Adaboost 详解”、“GLM(广义线性模型) 与 LR(逻辑回归) 详解”为本文之基础。
这里列举一个最简单常见的 GBDT 算法。
对于回归问题,GBDT 通过一组 decision tree 直接组成的 ensemble F(x)=∑Tt=1ft(x) 拟合目标 y 。
每一轮迭代 t 会寻找一个子函数 ft 集成到 F(x) ,方法如下:
residual 即上一轮结束后,整体模型的残差;所以 GBDT 会关注到之前迭代中没有处理好的样本,一步步优化细节,以达到越来越好的拟合(当然也会有 overfitting 的问题)。
实际上,GBDT 中其实包含了非常广泛的思想和应用,本文将详细阐述。
GBDT 包含了多种机器学习常见的概念方法,这里将分别介绍几个重要的基础概念。
梯度下降是机器学习的 wellknown fashion,对于一个优化目标(loss function),我们要从当前位置(模型状态)走一小步,让 loss 最快的下降(减少)。下面是对 loss function 的一阶泰勒展开:
目标其实是找到一个让 loss function 下降最快的方向 v ,通过其他数学工具可以证明最优的方向是负梯度方向 v=−∇E(wt) ; η 一般是一个超参数,让我们在这个当前最优的方向上走一小步。
牛顿法实际上就是在 Gradient Descent 方法上更进一步,通过 loss function 的二阶导数信息来获取最优的增量 Δw 。
首先对 loss function 做二阶泰勒展开:
牛顿法通常收敛速度比梯度下降方法快,但是需要计算二阶导数,且要求海森矩阵正定,所以后续衍生出了一系列近似的拟牛顿法。
提升方法属于 ensemble 集成方法的一类。其在迭代的每一轮中,选择最合适的 weak learner 集成到整体模型中,让整体模型越来越强,提升为 strong learner。注意,它只能串行地训练,因为每一轮迭代都要根据当时模型状况选择最好的子模型。与 Boosting 不同的 Bagging(例如 Random Forest)则可以并发训练。
每一个 weak learner 其实就是一个函数,相对抽象地说,boosting 通过 optimization in function space,找到一组合适的函数集成起来。这个套路类似统计学习中的 Additive Model。
线性模型 LM 通过 least square (y−wTx)2 完成了 linear predictor( wTx ) 到 expected response E[y] 的拟合,其中隐含了因变量 y 服从高斯分布。
但是 GLM 把高斯分布推广到了任意 Exponential Family Distribution,例如 Bernoulli Distribution, Laplace Distribution, Gamma Distribution 等等;这极大拓展了 LM,能够处理例如 Classification 的问题。 本质上,这里使用了连接函数把 linear predictor 和 expected response 关联到了一起,所以模型能够学习一个合适的 linear predictor 来预测服从某个分布的 expected response。
GBDT 使用了类似的方式。常规 GBDT 的子模型是 Regression Tree,所以所有子模型的结果加和 ∑Tt=1αtht(x) 类似于 GLM 中的 linear predictor。之后的套路一致,通过相应的连接函数(往往直接吸收到 loss 中去了),GBDT 也可以学习合适的 linear predictor(即一些列 Regression Tree)来预测服从某个分布的 expected response。当然,GBDT 一般来说比 GLM 拟合效果好很多,因为 GBDT 是在函数空间上寻找一个非线性的最优解,而 GLM 只是在原始的特征空间上寻找一个线性的最优解。
这一套路类似统计学习中 Additive Model to Generalized Additive Model。
GBDT 基于 GLM,一般使用 Regression Tree;不展开。
From AdaBoost to GBDT
Gradient Boosting 这一思想来源自 AdaBoost,对于 AdaBoost 来说,Gradient Descent 如下:
其每次迭代都要选择一个最好的方向,以及方向上最合适的步长(Steepest Descent),最后把一系列的方向( ht(x) )和步长(写作 αt )集成在一块。优化过程本质上是在 Exponential Error 的 loss 函数上做梯度下降,这也是 Gradient Boosting,所以常规的 AdaBoost 其实也可称作 GBM 或 GBDT。
Gradient Boosting 是通过 GLM 思路对 AdaBoost 推广,Gradient Descent 如下:
这里结合了 GLM,和之前 AdaBoost 有俩个区别:
GBM 的应用场景被大幅拓展了,不局限与 exponential error 或者 least square;正如 GLM 一样拓展到了各种 y 分布上。一句话:Regressor here is not just for regression, it all depends on how you define the objective function!
AdaBoost 和 GBDT 在梯度下降的细节上有不一致。本质原因在于函数方向 scale,注意,我们寻找的 h(x) 只是一个方向,scale 上没有意义。
AdaBoost 使用 Classifier 做子模型 h(x) ,这天然可以在直接函数空间中表示一个方向,不需要约束 scale。所以 AdaBoost 可以固定 η 以 loss function minht1N∑i=1Nexp{−yi(∑τ=1t−1ατhτ(xi)+ηht(xi))} 直接解出最速下降方向 ht(x) ,这是很直接、丝滑的套路。
GBDT 使用 Regressor 做子模型,这必须加以约束才能在函数空间表示一个方向,正如梯度下降标准套路 min||v||=1E(wt+ηv)≈E(wt)+ηv∇E(wt) 中的 ||v||=1 。如果不加以 scale 约束,这个方向没有意义,并且没法解出来的(可能包含一堆无穷大和无穷小)。所以 GBDT 间接地解决了这个问题:以当前模型的负梯度方向为标杆,寻找一个尽量平行于负梯度方向的 ht(x) 。实现上是引入一个 least square minht(ht(x)−(−∇E))2 ,解出一个接近最优方向的 ht(x) 。其实这个套路还能找到一些其他的解释,总的来说,就是把带约束的优化问题转为不带约束的优化问题,让我们能较容易地解出作为方向的 regressor ht(x) 。
GBDT 原文论文 Gradient Boost 套路如下:
之后有 T 轮迭代,每次迭代步骤如下:
there is an interesting trick with tree
GBDT 可以说是对 GBM 的一种实现,其子模型使用 Regression Tree。但是,基于 Decision Tree 的特点,Friedman 原论文对其最优化过程做出了非常有意思的调整( η 的求解步骤),拟合能力大幅增强。
之前也有提到,寻找函数方向 h(x) ,实际上是在寻找一组合适模型参数。当使用 Regression Tree 作 h(x) ,可以把模型参数看做 h(x;{bj,Rj}J1) :
分割出的 J 是 disjoint 的,所以有:
1(x∈Rj) 表示样本属于这一 region,这里可以把一个函数 h(x) 等价看作 J 个函数。
标准 GBM 套路中,求解最适步长 η 只是一个实数,目标如下:
但是,对于 GBDT,每一个 h(x) 包含 J 个 region,可看作 J 个函数;我们可以对每一个 region 求解一个合适的步长!目标如下:
其中 γj 实际就是 ηjbj ,这里把这俩揉一块了;本质上我们使用 J 个步长 ηj 来更好地优化 loss,拟合目标。
并且,这 J 个 region 是 disjoint 的,所以各 region 可以分开求一个单变量 γj 的优化问题。
这里以二分类问题常用的 loss(negative binomial log-likelihood)实例分析 GBDT 优化过程(又被称为 LogitBoost)。
Loss 函数即 L(y,F)=log(1+exp(−2yF)), y∈{−1,1}
GBDT 原文论文 二分类训练套路如下:
其中负梯度求解过程如下:
其中 terminal node 最优值的计算公式:
另外,这里额外提一下 K 分类的问题。K 分类需要训练 K 组不同的树(即每轮迭代需要训练 K 颗不相关的树);每一组树结果叠加成 linear predictor 后输出一个判别概率,这和广义线性模型中处理 K 分类的思路是一模一样的。
XgBoost 是对陈天奇对 GBDT 的一个非常高效的实现;不仅如此,其最重要的一个新特性是对 Regularization 的强化:heuristic to objective。传统的树模型生成结构时,往往只考虑 impurity,把 complexity 的控制完全交给 heuristic 策略;但是 XgBoost 将部分控制吸收到了优化目标 objective(即 loss function)。
具体实现上涉及两个细节:
在传统 GBM 的优化思路中,我们是每次迭代中依次找到合适的函数方向 ft 以及最佳的步长 η ,以梯度下降优化 loss function。
XgBoost 和之前 GBM 的一个区别是这里要求上述的 Loss 函数二阶可导。接下来就是对这个 objective function 的各种变化,确定最优化求解的步骤。
1.2 中有详细解释 Newton Method。首先,Recall 函数的二阶泰勒展开公式为:
类似于 4.1 中将目标函数按照 terminal node 切为一系列函数 h(x;{bj,Rj}J1)=∑Jj=1bj1(x∈Rj) ,XgBoost 使用了同样套路,只是定义符号有所不同:
为了方便目标函数改写,这里定义集合 Ij={i|q(xi)=j} 表示归属于某一 terminal node j 的所有样本 index;并且再定义 Gj=∑i∈Ijgi 和 Hj=∑i∈Ijhi ,表示同一 terminal 上样本的一阶、二阶导数值之和。
现在,对原 objective function 做如下改写:
基于树模型,定义 ft 的复杂度如下:
整合上 regularisation term 后,objective function 为:
按照牛顿法标准套路,我们可以进一步化简上述 objective function。固定住 tree structure 和超参数,对于某一 terminal node j 有:
接下来,一个有点 tricky 的方法:我们直接把 w∗j 代入 objective function,将得到一个对于 tree structure 的评估函数:
最终的 XgBoost 训练流程,正是通过这一评估函数生成合适的 Tree Structure,然后再求出其各个叶子节点对应值 w∗j 。
理论基础见 5.2,具体应用中,每轮迭代生成一个另当前 objective 尽量最小的 Regression Tree。GBDT 的原论文感觉更强调各类 loss function 上的应用,展现类似 GLM 的通用性;而 XgBoost 非常关注具体的 Decision Tree 的生成细节。
单个 Tree 也是一个 greedy(都是这么玩的~)的生成过程,对于所有当前叶子节点,会扫描所有 feature 维度所有可能的 split,来找到一个最优 split 使得 Gain 最大(即 loss 减少最多):
和各类树模型一致,这里也是一个纯 search 的过程,细节上会涉及连续值、离散值、缺失值的不同应对策略,以及各式 heuristic 策略控制树的复杂度,这里不做展开。
另外,XgBoost 在集成每一轮迭代时建议使用 shrinkage ϵ=0.1 ,即 Ft=Ft−1+ϵft ,很保守~
这里进一步列举几个常见 regularization 思路,在 XgBoost 以及后续的 LightGBM 上都有体现:
Objective Function 控制复杂度
可以说是 XgBoost 的主推特性;传统的 decision tree 只通过 heuristic 策略控制
split 策略控制复杂度,很通用,例如:
Pruning
又分为前剪枝 Pre-Pruning 和后剪枝 Post-Pruning:
行采样,row-subsampling
正如 Random Forest 这类 bootstrap 套路;抗 overfitting
列采样,column-subsampling
这也是很多 ensemble 方法的通用套路,包括 Isolation Forest;抗 overfitting~
Shrinkage
每次学习到的子模型都以一定比例衰减权值,刻意降低拟合的效率来避免过拟合;GBDT 通用套路
Early Stop
机器学习通用套路,对于 GBDT 这种 emsemble 模型更方便;由于模型可加性,训练完成后,最终模型到底集成多少棵树,是可以随时调整的~
XgBoost introduction: https://homes.cs.washington.edu/~tqchen/pdf/BoostedTree.pdf
Origin of GBDT: Greedy function approximation a gradient boosting machine. J.H. Friedman