lightgbm回归模型使用方法(lgbm.LGBMRegressor)

lgbm.LGBMRegressor使用方法

1.安装包:pip install lightgbm

2.整理好你的输数据

就拿我最近打的kaggle MLB来说数据整理成pandas格式的数据,如下图所示:(对kaggle有兴趣的可以加qq群一起交流:829909036)
输入特征
lightgbm回归模型使用方法(lgbm.LGBMRegressor)_第1张图片
要预测的结果
lightgbm回归模型使用方法(lgbm.LGBMRegressor)_第2张图片

3.整理模型

def fit_lgbm(x_train, y_train, x_valid, y_valid,num, params: dict=None, verbose=100):
	#判断是否有训练好的模型,如果有的话直接加载,否则重新训练
    if os.path.isfile(f'../input/mlb-models/model_{num}.pkl'):
        with open(f'../input/mlb-models/model_{num}.pkl', 'rb') as fin:
            model = pickle.load(fin)
    else:
        oof_pred = np.zeros(len(y_valid), dtype=np.float32)
        model = lgbm.LGBMRegressor(**params)
        model.fit(x_train, y_train, 
            eval_set=[(x_valid, y_valid)],  
            early_stopping_rounds=verbose, 
            verbose=verbose)
        #保存训练好的模型
        with open(f'model_{num}.pkl', 'wb') as handle:
            pickle.dump(model, handle, protocol=pickle.HIGHEST_PROTOCOL)
    oof_pred = model.predict(x_valid) #对验证集进行预测
    score = mean_absolute_error(oof_pred, y_valid)#将预测结果与真是结果进行比较
    print('mae:', score)
    return oof_pred, model, score

#lightgbm训练的参数:注意,上面的(**params)中的**必须写
params = {
'boosting_type': 'gbdt',
'objective':'mae',
'n_jobs':8,
'subsample': 0.5,
'subsample_freq': 1,
'learning_rate': 0.01,
'num_leaves': 2**11-1,
'min_data_in_leaf': 2**12-1,
'feature_fraction': 0.5,
'max_bin': 100,
'n_estimators': 2500,
'boost_from_average': False,
"random_seed":1,
}

4.调用模型进行训练

#将第一步整理的输入数据塞入模型即可
oof1, model1, score1 = fit_lgbm(
    x_train1, y_train1['target1'],
    x_valid1, y_valid1['target1'],1,
    params
 )

模型的参数选择:

建议上官网:https://lightgbm.cn/

在此处只给出粗略的解释:
boosting_type:用于指定弱学习器的类型,默认值为 ‘gbdt’,表示使用基于树的模型进行计算。还可以选择为 ‘gblinear’ 表示使用线性模型作为弱学习器。
其他的参数可以选择:
‘gbdt’,使用梯度提升树
‘rf’,使用随机森林
‘dart’,不太了解,官方解释为 Dropouts meet Multiple Additive Regression Trees
‘goss’,使用单边梯度抽样算法,速度很快,但是可能欠拟合。
推荐设置为 'gbdt’

objective:指定目标可选参数如下:
“regression”,使用L2正则项的回归模型(默认值)。
“regression_l1”,使用L1正则项的回归模型。
“mape”,平均绝对百分比误差。
“binary”,二分类。
“multiclass”,多分类。
num_class用于设置多分类问题的类别个数。

min_child_samples:叶节点样本的最少数量,默认值20,用于防止过拟合。

learning_rate / eta:LightGBM 不完全信任每个弱学习器学到的残差值,为此需要给每个弱学习器拟合的残差值都乘上取值范围在(0, 1] 的 eta,设置较小的 eta 就可以多学习几个弱学习器来弥补不足的残差。推荐的候选值为:[0.01, 0.015, 0.025, 0.05, 0.1]

max_depth:指定树的最大深度,默认值为-1,表示不做限制,合理的设置可以防止过拟合。
推荐的数值为:[3, 5, 6, 7, 9, 12, 15, 17, 25]。

num_leaves:指定叶子的个数。

feature_fraction / colsample_bytree:构建弱学习器时,对特征随机采样的比例,默认值为1。推荐的候选值为:[0.6, 0.7, 0.8, 0.9, 1]

bagging_fraction / subsample:默认值1,指定采样出 subsample * n_samples 个样本用于训练弱学习器。注意这里的子采样和随机森林不一样,随机森林使用的是放回抽样,而这里是不放回抽样。 取值在(0, 1)之间,设置为1表示使用所有数据训练弱学习器。如果取值小于1,则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差,即防止过拟合,但是会增加样本拟合的偏差,因此取值不能太低。注意: bagging_freq 设置为非0值时才生效。推荐的候选值为:[0.6, 0.7, 0.8, 0.9, 1]

bagging_freq / subsample_freq:数值型,默认值0,表示禁用样本采样。

lambda_l1:L1正则化权重项,增加此值将使模型更加保守。推荐的候选值为:[0, 0.01~0.1, 1]

lambda_l2:L2正则化权重项,增加此值将使模型更加保守。推荐的候选值为:[0, 0.1, 0.5, 1]

min_gain_to_split / min_split_gain:指定叶节点进行分支所需的损失减少的最小值,默认值为0。设置的值越大,模型就越保守。推荐的候选值为:[0, 0.05 ~ 0.1, 0.3, 0.5, 0.7, 0.9, 1]

min_sum_hessian_in_leaf / min_child_weight:指定子节点中最小的样本权重和,如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束,默认值为1。推荐的候选值为:[1, 3, 5, 7]

metric
用于指定评估指标,可以传递各种评估方法组成的list。常用的评估指标如下:
‘mae’,用于回归任务,效果与 ‘mean_absolute_error’, ‘l1’ 相同。
‘mse’,用于回归任务,效果与 ‘mean_squared_error’, ‘l2’ 相同。
‘rmse’,用于回归任务,效果与 ‘root_mean_squared_error’, ‘l2_root’ 相同。
‘auc’,用于二分类任务。
‘binary’,用于二分类任务。
‘binary_logloss’,用于二分类任务。
‘binary_error’,用于二分类任务。
‘multiclass’,用于多分类。
‘multi_logloss’, 用于多分类。
‘multi_error’, 用于多分类。
seed / random_state 指定随机数种子。

你可能感兴趣的:(机器学习,深度学习,python,人工智能,kaggle)