DataWhale集成学习笔记-task05

模型融合:模型融合就是训练多个模型,然后按照一定的方法集成过个模型,应为它容易理解、实现也简单,同时效果也很好,在工业界的很多应用,在天池、kaggle比赛中也经常拿来做模型集成。

集成学习:Bagging:bootStrap
boosting: 叠加式
stacking :模型之间存在前后的关系,模型1的特征训练出给模型2进行训练

投票法

  投票法是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的鲁棒性。在理想情况下,投票法的预测效果应当优于任何一个基模型的预测效果。
投票法在回归模型与分类模型上均可使用:

  • 回归投票法:预测结果是所有模型预测结果的平均值。
  • 分类投票法:预测结果是所有模型种出现最多的预测结果。

分类投票法又可以被划分为硬投票与软投票:

  • 硬投票:预测结果是所有投票结果最多出现的类。
  • 软投票:预测结果是所有投票结果中概率加和最大的类。

在实际应用上,想要投票法产生较好的结果,需要满足两个条件:

  • 基模型之间的效果不能差别过大。当某个基模型相对于其他基模型效果过差时,该模型很可能成为噪声。
  • 基模型之间应该有较小的同质性。例如在基模型预测效果近似的情况下,基于树模型与线性模型的投票,往往优于两个树模型或两个线性模型。
    当投票合集中使用的模型能预测出清晰的类别标签时,适合使用硬投票。当投票集合中使用的模型能预测类别的概率时,适合使用软投票。软投票同样可以用于那些本身并不预测类成员概率的模型,只要他们可以输出类似于概率的预测分数值(例如支持向量机、k-最近邻和决策树)。
    投票法的局限性在于,它对所有模型的处理是一样的,这意味着所有模型对预测的贡献是一样的。如果一些模型在某些情况下很好,而在其他情况下很差,这是使用投票法时需要考虑到的一个问题。

投票法的案例分析(基于sklearn,介绍pipe管道的使用以及voting的使用)

  Sklearn中提供了 VotingRegressor 与 VotingClassifier 两个投票方法。   这两种模型的操作方式相同,并采用相同的参数。使用模型需要提供一个模型列表,列表中每个模型采用Tuple的结构表示,第一个元素代表名称,第二个元素代表模型,需要保证每个模型必须拥有唯一的名称。
实例可见 task05.ipynb

bootStrap

随机森林:bagging+特征采样

通过 bootStrap(自助法)的思路如下:

  假设一个总体服从正态分布 x ∼ N ( μ , σ 2 ) x\thicksim N(\mu,\sigma^{2}) xN(μ,σ2)需要估计 μ \mu μ σ \sigma σ,从数据集中抽了10次样,每次抽样抽了100随机变量 x i x_i xi, ( i = 1 , 2 , . . . , 100 ) (i=1,2,...,100) (i=1,2,...,100),得到的 X j ˉ \bar{X_j} Xjˉ, ( j = 1 , 2 , . . . , 10 ) (j=1,2,...,10) (j=1,2,...,10)
对于 X j ˉ \bar{X_j} Xjˉ服从 N ( μ , σ 2 / n ) N(\mu,\sigma^{2}/n) N(μ,σ2/n),也就是说
1 n ∑ j = 1 n ( X j ˉ ) = E ( X ˉ ) = 1 n ∑ j = 1 n 1 m ∑ i = 1 m ( x i ) = E ( X ) = μ \frac{1}{n}\displaystyle\sum_{j=1}^n(\bar{X_j})=E(\bar{X})=\frac{1}{n}\displaystyle\sum_{j=1}^n\frac{1}{m}\displaystyle\sum_{i=1}^m(x_i)=E(X)=\mu n1j=1n(Xjˉ)=E(Xˉ)=n1j=1nm1i=1m(xi)=E(X)=μ 可见,可以根据 1 n ∑ j = 1 n ( X j ˉ ) \frac{1}{n}\displaystyle\sum_{j=1}^n(\bar{X_j}) n1j=1n(Xjˉ)推断 μ \mu μ的值。
V A R ( X ˉ ) = E ( X j ˉ − E ( X ˉ ) ) 2 = σ 2 / n VAR(\bar{X})=E(\bar{X_j}-E(\bar{X}))^2= \sigma^2/n VAR(Xˉ)=E(XjˉE(Xˉ))2=σ2/n 可见,可以根据 V A R ( X ˉ ) VAR(\bar{X}) VAR(Xˉ)推断 σ \sigma σ的值。

bagging的思路

  与投票法不同的是,Bagging不仅仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从一定的假设。在上一章中我们提到,希望各个模型之间具有较大的差异性,而在实际操作中的模型却往往是同质的,因此一个简单的思路是通过不同的采样增加模型的差异性。
   Bagging的核心在于自助采样(bootstrap)这一概念,即有放回的从数据集中进行采样,也就是说,同样的一个样本可能被多次进行采样。一个自助采样的小例子是我们希望估计全国所有人口年龄的平均值,那么我们可以在全国所有人口中随机抽取不同的集合(这些集合可能存在交集),计算每个集合的平均值,然后将所有平均值的均值作为估计值。

  首先我们随机取出一个样本放入采样集合中,再把这个样本放回初始数据集,重复K次采样,最终我们可以获得一个大小为K的样本集合。同样的方法, 我们可以采样出T个含K个样本的采样集合,然后基于每个采样集合训练出一个基学习器,再将这些基学习器进行结合,这就是Bagging的基本流程。

  对回归问题的预测是通过预测取平均值来进行的。对于分类问题的预测是通过对预测取多数票预测来进行的。Bagging方法之所以有效,是因为每个模型都是在略微不同的训练数据集上拟合完成的,这又使得每个基模型之间存在略微的差异,使每个基模型拥有略微不同的训练能力。

  Bagging同样是一种降低方差的技术,因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更加明显。在实际的使用中,加入列采样的Bagging技术对高维小样本往往有神奇的效果。

bagging的案例分析(基于sklearn,介绍随机森林的相关理论以及实例)

这个有更完整的实例

作业:

  1. 什么是boostraps
  2. bootstrap与bagging的联系
  3. 什么是bagging
  4. 随机森林和bagging的联系和区别
  5. 使用偏差和方差理论阐述为什么bagging能提升模型的预测精度
  6. 请尝试使用bagging与基本分类模型做对比,观察bagging是否相对于基础模型的精度有所提高
    请看新的博客
  7. 用 python numpy sklearn 的基础模型实现bagging

你可能感兴趣的:(实验记录,学习打卡,sklearn,机器学习,python)