天池-二手车价格预测-Ensembling

接上三篇:天池-二手车价格预测-EDA、天池-二手车价格预测-FE、
天池-二手车价格预测-Modeling

文首,深切哀悼新冠肺炎疫情牺牲烈士和逝世同胞。

0.Ensembling简介

模型融合简单来说就是通过对一组的基分类器以某种方式进行组合,以提升模型整体性能的方法。

1.常用方法

1.1 Voting

Voting非常简单,假设对于一个二分类问题,有n个基础模型,采取投票制的方法,投票多者即为最终的分类。

1.2 Averaging

对于回归问题,一个简单直接的思路是取平均。稍稍改进的方法是进行加权平均。权值可以用排序的方法确定,举个例子,比如A、B、C三种基本模型,模型效果进行排名,假设排名分别是1,2,3,那么给这三个模型赋予的权值分别是3/6、2/6、1/6

以上两种方法看似简单,其实后面的高级算法也可以说是基于此而产生的,Bagging或者Boosting都是一种把许多弱分类器这样融合成强分类器的思想。

1.3 Bagging

Bagging就是采用有放回的方式进行抽样,用抽样的样本建立子模型,对子模型进行训练,这个过程重复多次,最后进行融合,分类问题采用Voting,
回归问题采用Averaging。典型算法:随机森林。

1.4 Boosting

Bagging算法可以并行处理,而Boosting的思想是一种迭代的方法,每一次训练的时候都更加关心分类错误的样例,给这些分类错误的样例增加更大的权重,下一次迭代的目标就是能够更容易辨别出上一轮分类错误的样例。最终将这些弱分类器进行加权相加。典型算法:GBDT、AdaBoost、XGBoost、LightGBM、CatBoost。

1.5 Stacking

Stacking模型本质上是一种分层的结构,典型算法:K-Fold。

2.核心代码

  • 待填坑

你可能感兴趣的:(天池-二手车价格预测-Ensembling)