AdaBoost是一种提升树的方法,和三个臭皮匠,赛过诸葛亮的道理一样。
AdaBoost两个问题:
(1) 如何改变训练数据的权重或概率分布
提高前一轮被弱分类器错误分类的样本的权重,降低前一轮被分对的权重
(2) 如何将弱分类器组合成一个强分类器,亦即,每个分类器,前面的权重如何设置
采取”多数表决”的方法.加大分类错误率小的弱分类器的权重,使其作用较大,而减小分类错误率大的弱分类器的权重,使其在表决中起较小的作用。
GBDT和AdaBosst很类似,但是又有所不同。
GBDT和其它Boosting算法一样,通过将表现一般的几个模型(通常是深度固定的决策树)组合在一起来集成一个表现较好的模型。
AdaBoost是通过提升错分数据点的权重来定位模型的不足, Gradient Boosting通过负梯度来识别问题,通过计算负梯度来改进模型,即通过反复地选择一个指向负梯度方向的函数,该算法可被看做在函数空间里对目标函数进行优化。
因此可以说 。
GradientBoosting=GradientDescent+BoostingGradientBoosting=GradientDescent+BoostingGradientBoosting=GradientDescent+Boosting
缺点:
GBDT ->预排序方法(pre-sorted)
常用的机器学习算法,例如神经网络等算法,都可以以mini-batch的方式训练,训练数据的大小不会受到内存限制。
而GBDT在每一次迭代的时候,都需要遍历整个训练数据多次。
如果把整个训练数据装进内存则会限制训练数据的大小;如果不装进内存,反复地读写训练数据又会消耗非常大的时间。
尤其面对工业级海量的数据,普通的GBDT算法是不能满足其需求的。
LightGBM提出的主要原因就是为了解决GBDT在海量数据遇到的问题,让GBDT可以更好更快地用于工业实践。
lightGBM是2017年1月,微软在GItHub上开源的一个新的梯度提升框架。在开源之后,就被别人冠以“速度惊人”、“支持分布式”、“代码清晰易懂”、“占用内存小”等属性。
LightGBM主打的高效并行训练让其性能超越现有其他boosting工具。在Higgs数据集上的试验表明,LightGBM比XGBoost快将近10倍,内存占用率大约为XGBoost的1/6。
lightGBM 主要基于以下方面优化,提升整体特特性:
具体解释见下
直方图算法的基本思想是
Eg:
[0, 0.1) --> 0;
[0.1,0.3) --> 1;
…
使用直方图算法有很多优点。首先,**最明显就是内存消耗的降低,**直方图算法不仅不需要额外存储预排序的结果,而且可以只保存特征离散化后的值,而这个值一般用8位整型存储就足够了,内存消耗可以降低为原来的1/8。
然后在计算上的代价也大幅降低,预排序算法每遍历一个特征值就需要计算一次分裂的增益,而直方图算法只需要计算k次(k可以认为是常数),时间复杂度从O(#data_#feature)优化到O(k_#features)。
当然,Histogram算法并不是完美的。由于特征被离散化后,**找到的并不是很精确的分割点,所以会对结果产生影响。**但在不同的数据集上的结果表明,离散化的分割点对最终的精度影响并不是很大,甚至有时候会更好一点。原因是决策树本来就是弱模型,分割点是不是精确并不是太重要;较粗的分割点也有正则化的效果,可以有效地防止过拟合;即使单棵树的训练误差比精确分割的算法稍大,但在梯度提升(Gradient Boosting)的框架下没有太大的影响。
一个叶子的直方图可以由它的父亲节点的直方图与它兄弟的直方图做差得到。
通常构造直方图,需要遍历该叶子上的所有数据,但直方图做差仅需遍历直方图的k个桶。
利用这个方法,LightGBM可以在构造一个叶子的直方图后,可以用非常微小的代价得到它兄弟叶子的直方图,在速度上可以提升一倍。
Level-wise便利一次数据可以同时分裂同一层的叶子,容易进行多线程优化,也好控制模型复杂度,不容易过拟合。
Leaf-wise则是一种更为高效的策略,每次从当前所有叶子中,找到分裂增益最大的一个叶子,然后分裂,如此循环。
实际上大多数机器学习工具都无法直接支持类别特征,一般需要把类别特征,转化到多维的0/1特征,降低了空间和时间的效率。
而类别特征的使用是在实践中很常用的。基于这个考虑,LightGBM优化了对类别特征的支持,可以直接输入类别特征,不需要额外的0/1展开。并在决策树算法上增加了类别特征的决策规则。
在Expo数据集上的实验,相比0/1展开的方法,训练速度可以加速8倍,并且精度一致。目前来看,LightGBM是第一个直接支持类别特征的GBDT工具。
LightGBM还具有支持高效并行的优点。LightGBM原生支持并行学习,目前支持特征并行和数据并行的两种。
LightGBM针对这两种并行方法都做了优化:
在数据并行中使用分散规约 (Reduce scatter) 把直方图合并的任务分摊到不同的机器,降低通信和计算,并利用直方图做差,进一步减少了一半的通信量。
**基于投票的数据并行(Voting Parallelization)**则进一步优化数据并行中的通信代价,使通信代价变成常数级别。在数据量很大的时候,使用投票并行可以得到非常好的加速效果。
lightGBM 演进过程
lightGBM优势
银行等金融机构经常会根据客户的个人资料、财产等情况,来预测借款客户是否会违约,以便进行贷前审核、贷中管理、贷后违约处理等工作。金融处理的就是风险,需要在风险和收益之间寻求一个平衡点,现代金融在某种程度上是一个风险定价的过程。通过海量数据对客户进行风险评估并进行合适的借款利率定价,这便是一个典型的风险定价过程,又称为大数据风控。
LightGBM算法既能做分类分析,又能做回归分析,对应的模型分别为LightGBM分类模型(LGBMClassifier)和LightGBM回归模型(LGBMRegressor)。
这里以分类模型为例简单演示。
先读取1000条客户信息及违约表现数据。
特征变量有收入、年龄、性别、历史授信额度、历史违约次数;
目标变量为是否违约,若违约则标记为1,否则标记为0。
X = df.drop(columns='是否违约')
y = df['是否违约']
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=123)
模型搭建完毕后,通过如下代码对测试集数据进行预测。
通过如下代码汇总预测值和实际值,以便进行对比。
通过如下代码可以查看模型整体的预测准确度。
LGBMClassifier在本质上预测的并不是准确的0或1的分类,而是预测样本属于某一分类的概率,可以用predict_proba()函数查看预测属于各个分类的概率,代码如下。
通过如下代码可以绘制ROC曲线来评估模型的预测效果。
通过如下代码计算模型的AUC值。
通过如下代码对特征名称和特征重要性进行汇总,以便筛选出客户违约预测中最重要的特征变量。
可以看到,“收入”的特征重要性最高,“历史授信额度”的特征重要性为第二高,“性别”的特征重要性最低。“历史违约次数”的特征重要性不是很高,这与经验认知不符,可能的原因是本案例的数据较少,而实际应用中当数据量较大时,该特征还是有较高的特征重要性的。
另外需要注意的一点是,之前学过的机器学习模型的特征重要性为小数,而LightGBM模型的特征重要性均为整数。
使用GridSearch网格搜索进行参数调优,代码如下。
from sklearn.model_selection import GridSearchCV
parameters = {'num_leaves':[10,15,31],'n_estimators':[10,20,30],'learning_rate':[0.05,0.1,0.2]}
model = LGBMClassifier()
grid_search = GridSearchCV(model,parameters,scoring='roc_auc',cv=5)
grid_search.fit(X_train,y_train)
grid_search.best_params_
# 输出
# {'learning_rate': 0.1, 'n_estimators': 20, 'num_leaves': 10}
也就是说,针对本案例的数据,弱学习器的权重缩减系数设置为0.1,最大迭代次数设置为20,决策树的最大叶子节点数设置为10时,模型的预测效果最佳。