LightGBM是由微软公司开发的,属于Boosting算法的一种,官方文档地址是: https://lightgbm.readthedocs.io.
LightGBM是XGBoost升级版本,用于许多商业实战中,例如客户违约预测模型,广告收益回归预测模型等。
LightGBM采用分布式的GBDT,选择了基本直方图的决策树算法
项目 | XGBoost | LightGBM |
---|---|---|
训练速度 | 慢 | 快 |
内存消耗 | 大 | 小 |
预测精度 | 相当 | 相当 |
分类特征 | 不支持类别特征,需要OneHot编码处理 | 直接支持类别特征 |
相比于XGBoost的优势:
LightGBM = XGBoost + Histogram + GOSS + EFB
通过以上3个算法的引入,LightGBM生成一片叶子需要的复杂度大大降低了,从而极大的节约了计算成本,同时Histogram算法还将特征由浮点数转换成0~255位的整数进行存储。从而极大的节约了内存存储。
对于大部分决策树算法使用的是level-wise生长策略,即同一层的叶子节点每次都一起分裂,但实际上一些叶子节点的分裂增益较低,这样分裂会增加不少开销,如图所示:
LightGBM是使用leaf-wise策略,每一次在当前叶子节点中,找出分列增益最大的叶子节点进行分裂,而不是所有节点都进行分裂,这样可以提高精度,如下图所示:
直方图算法是代替XGBoost的预排序(pre-sorted)算法的。
首先需要了解直方图的基本概念:直方图分为频数直方图和频率直方图,横坐标为相关数据,纵坐标是该数据出现的频数或频率,通过 hist() 函数绘制直方图。
直方图算法,也叫作histogram算法,简单来说,就是先对特征值进行装箱处理,把连续的浮点特征值离散化成k个整数,形成一个一个的箱体(bins),同时构造一个宽度为k的直方图,在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量(因此这里是频数直方图),当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。
对于连续特征来说,装箱处理就是特征工程中的离散化:如[0,10)区间的值都可以赋值为0,[10,20)区间的值都可以赋值为1等,这样就可以把众多的数值划分到有限的分箱中,在Lightgbm中默认的分箱数(bins)为256(该数也可以设置)。
例子:
现在有10000个客户,也就有10000个身高,将身高分箱为256份后(例如180cm-180.2cm的所有客户都分箱为数字200),就变为256个数字,这时再统计每个数值对应的频数(例如180cm-180.2cm的客户为100人,那数字200对应的频数就是100)。这样在节点分裂的时候,对于每个特征都计算10000遍(所有的样本数量)了,而是只需要计算256遍(分箱数),这样就大大加快了训练速度。
单边梯度采样GOSS算法(Gradient-based One-Side Sampling):通过对样本采样的方法来减少计算目标函数增益时候的复杂度。
GOSS算法中,梯度更大的样本点在计算信息增益时会占有更重要的作用,当我们对样本进行下采样的时候保留这些梯度较大的样本点,并随机去掉梯度小的样本。
怎样保证信息损失降到最低:
首先把样本按照梯度排序,选出梯度最大的a%个样本,然后在剩下小梯度数据中随机选取b%个样本,在计算信息增益的时候,将选出来的b%小梯度样本的信息增益扩大1-a/b的倍数。
EFB算法(Exclusive Feature Bundling),即互斥特征绑定算法。
LightGBM可以直接将每个类别取值和一个bin关联,从而自动地处理它们,而无需预处理成onehot编码
LightGBM支持特征并行和数据并行两种。传统的特征并行主要思想是在并行化决策树中寻找最佳切分点,在数据量大时难以加速,同时需要对切分结果进行通信整合。
LightGBM则是使用分散规约(Reduce scatter),它将直方图合并的任务分给不同的机器,降低通信和计算的开销,并利用直方图做加速训练,进一步成少开销。
LightGBM模型的安装办法可以采取PIP安装法,以Windows操作系统为例,Win+R快捷键调出运行框,输入cmd后,在弹出界面中输入代码后Enter键回车运行即可:pip install lightgbm
如在Jupyter Notebook编辑器中,运行下列代码!pip install lightgbm
X = [[1,2],[3,4],[5,6],[7,8],[9,10]]
y = [1,2,3,4,5]
from lightgbm import LGBMClassifier
model = LGBMClassifier() #分类模型
from lightgbm import LGBMRegressor
model = LGBMRegressor() #回归模型
model.fit(X,y)
案例背景:智能风控、大数据风控
银行等金融机构经常会根据客户的个人资料、财产等情况,来预测借款客户是否会违约,从而进行贷前审核,贷中管理,贷后违约处理等工作。金融处理的就是风险,需要在风险和收益间寻求到一个平衡点,现代金融某种程度上便是一个风险定价的过程,通过个人的海量数据,从而对其进行风险评估并进行合适的借款利率定价,这便是一个典型的风险定价过程,这也被称之为大数据风控。
#1、读取数据
import pandas as pd
df = pd.read_excel('客户信息及违约表现.xlsx')
#2、提取特征变量和目标变量
X = df.drop(columns='是否违约')
Y = df['是否违约']
#3、划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,Y,test_size=0.2,random_state=123)
#4、模型训练和搭建
from lightgbm import LGBMClassifier
model = LGBMClassifier() #分类模型
model.fit(X_train,y_train)
#5、模型预测及评估
y_pred = model.predict(X_test)
a = pd.DataFrame()#创建一个空的DataFrame
a['预测值'] = list(y_pred)
a['实际值'] = list(y_test)
from sklean.metrics import accuracy_score
score = accuracy_score(y_pred,y_test)
model.score(X_test,y_test)#模型准确度评分
#绘制ROC曲线来评估模型预测效果
y_pred_proba = model.predict_proba(X_test)
from sklean.metrics import roc_curve
fpr,tpr,thres = roc_curve(y_test,y_pred_proba[:,1])
import matplotlib.pyplot as plt
plt.plot(fpr,tpr)
plt.show()
#求AUC值
from sklean.metrics import roc_auc_score
score = roc_auc_score(y_test.values,y_pred_proba[:,1])
features = X.columns#获取特征名称
importances = model.feature_importances_#获取特征重要性
#通过二维表格显示
importances_df = pd,DataFrame()
importances_df['特征名称'] = features
importances_df['特征重要性'] = importances
importances_df.sort_values('特征重要性',ascending=False)
了解了基本的参数后,我们需要对参数进行调优,使用网格搜索交叉验证的方法进行参数调优
from sklearn.model_selection import GridSearchCV
parameters = ['num_leaves':[10,15,31],'n_estimators':[10,20,30],'learning_rate':[0.05,0.1,0.2]}
model = LGBMCLassifier()
grid_search = GridSearchCV(model,parameters,scoring='roc_auc',cv=5)
grid_search.fit(X_train,y_train)#传入数据
grid_search.best_params_#输出参数的最优值
#结果{'Learning-rate':0.1,'n-estimators':20,'num-leaves':15]