常见集成学习算法模型&LightGBM示例

集成学习——介绍

在集成学习中,我们会训练多个模型(通常称为 弱学习器)解决相同的问题,并将它们结合起来以获得更好的结果。最重要的假设是:当弱模型被正确组合时,我们可以得到更精确和/或更鲁棒的模型。

  • 有自助聚合(bagging)、提升法(boosting)、堆叠法(stacking)以及许多其它的基础集成学习模型

常见的三种集成学习模型

  • bagging——可以并行执行,每一棵树权重是一样的
    • 随机森林
  • boosting——串行执行的,后一棵树学习的是前一棵树模型的error(误差)
    • gbdt、xgboost、lightgbm
  • stacking
    • gbdt+lr (lr逻辑回归)
    • xgboost+lr(做推荐的时候经常使用)
      • xgboost 做特征交叉
      • xgboost预测过程中使用到的特征组合+原始特征---->给到lr做回归预测

gbdt < xgboost < lightgbm

  • GBDT 速度慢,准确性差

  • xgboost——梯度提升决策树模型

    • 不支持直接导入类别型变量,需要预先对类别型变量做独热编码等处理

    • XGBoost使用的是pre-sorted算法,能够更精确的找到数据分隔点。

      • 首先,对所有特征按数值进行预排序。
      • 其次,在每次的样本分割时,用O(# data)的代价找到每个特征的最优分割点。
      • 最后,找到最后的特征以及分割点,将数据分裂成左右两个子节点。

      这种pre-sorting算法能够准确找到分裂点,但是在空间和时间上有很大的开销

  • lightgbm

    • 可以直接导入类别型变量(导入前需要将字符型转变成整数型,并且需要声明类别行特征的字段名),它没有对类别型特征进行独热编码,因此速度比独热编码快得多
    • LightGBM使用的是histogram算法,占用的内存更低,数据分隔的复杂度更低 。其思想是将连续的浮点特征离散成k个离散值,并构造宽度为k的Histogram。然后遍历训练数据,统计每个离散值在直方图中的累计统计量。在进行特征选择时,只需要根据直方图的离散值,遍历寻找最优的分割点

sklearn接口形式的LightGBM示例

import lightgbm as lgb
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
# 加载数据
iris = load_iris()
data = iris.data
target = iris.target
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2)
# 创建模型,训练模型
gbm = lgb.LGBMRegressor(objective='regression', num_leaves=31, learning_rate=0.05, n_estimators=20)
gbm.fit(X_train, y_train, eval_set=[(X_test, y_test)], eval_metric='l1', early_stopping_rounds=5)
# 测试机预测
y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration)
# 模型评估
print('The rmse of prediction is:', mean_squared_error(y_test, y_pred) ** 0.5)
# feature importances
print('Feature importances:', list(gbm.feature_importances)) 
# 网格搜索,参数优化
estimator = lgb.LGBMRegressor(num_leaves=31)
param_grid = {
     'learning_rate': [0.01, 0.1, 1],'n_estimators': [20, 40]}
gbm = GridSearchCV(estimator, param_grid)
gbm.fit(X_train, y_train)
print('Best parameters:', gbm.best_params_)

原生形式使用lightgbm

import lightgbm as lgb
from sklearn.metrics import mean_squared_error
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
data = iris.data
target = iris.target
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2) 
# 创建成lgb特征的数据集格式
lgb_train = lgb.Dataset(X_train, y_train)
lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)
# 将参数写成字典下形式
params = {
     'task': 'train',
          'boosting_type': 'gbdt',  # 设置提升类型 
          'objective': 'regression',  # 目标函数 
          'metric': {
     'l2', 'auc'},  # 评估函数  
          'num_leaves': 31,  # 叶子节点数   
          'learning_rate': 0.05,  # 学习速率   
          'feature_fraction': 0.9,  # 建树的特征选择比例   
          'bagging_fraction': 0.8,  # 建树的样本采样比例  
          'bagging_freq': 5,  # k 意味着每 k 次迭代执行bagging  
          'verbose': 1  # <0 显示致命的, =0 显示错误 (警告), >0 显示信息
         } 
# 训练
cv and traingbm = lgb.train(params, lgb_train, num_boost_round=20, valid_sets=lgb_eval, early_stopping_rounds=5) 
# 保存模型到文件
gbm.save_model('model.txt')
# 预测数据集
y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration) 
# 评估模型
print('The rmse of prediction is:', mean_squared_error(y_test, y_pred) ** 0.5)

你可能感兴趣的:(数据挖掘,机器学习,python,数据挖掘,算法)