【notebook】notebook list

kaggle notebooks

  • 1. 【notebook】xgboost-lightgbm-catboost 预测取平均
  • 2. 【notebook】xgboost, cudf, Regression Class Cutoff(连续值转类别整数划分最佳阈值)

1. 【notebook】xgboost-lightgbm-catboost 预测取平均

【notebook】xgboost-lightgbm-catboost 预测取平均

  1. xgboost + lightbgm + catboost 利用 np.column_stack 组合预测结果取平均;
  2. 简单的特征筛选:去除只有一个值的特征;
  3. ordinal/label encoder:特征数/行数 太大,独热编码会增加比率引起过拟合,不采用;
  4. 最终决胜点在于Adding Risk Factors :https://www.kaggle.com/c/playground-series-s3e3/discussion/380920
  5. MultiColumnLabelEncoder :
    https://www.kaggle.com/code/radek1/eda-training-a-1st-model-submission
    【Python】特征编码 - 多标签特征同时编码(封装类方式)

2. 【notebook】xgboost, cudf, Regression Class Cutoff(连续值转类别整数划分最佳阈值)

【notebook】xgboost, cudf, Regression Class Cutoff(连续值转类别整数划分最佳阈值)

  1. xgboost 但模型,optuna提前调优;
  2. Regression Class Cutoff:将分类转变为回归来做,最终预测的回归值按照设置的分割阈值转成类别整数,需要找到最佳的分割阈值,涉及到scipy.optimize.minimize来搜索最佳阈值;
    【Python】特征编码 - Regression Class Cutoff(连续值转整数寻找最佳划分阈值)
    【Scipy】scipy.optimize.minimize
  3. Kappa相关性系数的概念和代码;
    【sklearn】sklearn.metrics - sklearn.metrics.cohen_kappa_score
  4. 交叉验证的一个用法 >>> 求解最终预测值
    详见notebook中cross_valid函数
    (1) 找到最优模型(参数)后,将参数固定,生成的模型在训练集上进行交叉验证;
    (2) 每轮循环在不同折的训练集上训练得到不同模型, 每轮生成的模型在整个测试集上进行预测,生成概论模型的预测值;
    (3) 最终所有轮模型的预测结果的平均值。
  5. cudf是一个 GPU DataFrame库,pandas只能在cpu上运行,cudf将dataframe转到gpu上; 详见notebook中cross_valid函数;

你可能感兴趣的:(notebook,机器学习,python,sklearn)