监督学习——集成方法

目录

Bagging

AdaBoost

数据权重

集合模型

slearn中的Adaboost

超参数

相关学习资源


Bagging

自助聚集(bootstrap aggregation )。将数据分成很多的子集,然后随机选取一些,用简单的模型去训练,再选择一些数据用另外一个简单的模型去训练……最后将所有的简单模型连接起来,连接的方式可以用投票的方式等,最后完成所有数据的训练。

监督学习——集成方法_第1张图片

监督学习——集成方法_第2张图片

监督学习——集成方法_第3张图片

AdaBoost

自适应增强算法。第一次分类,分完之后惩罚那些错误的点,然后增加被惩罚点的大小,

监督学习——集成方法_第4张图片

监督学习——集成方法_第5张图片

监督学习——集成方法_第6张图片

监督学习——集成方法_第7张图片

 

数据权重

小例子:最开始左右点的权重是1,第一次分类,分类正确的点总权重是7,错误的是3,按照50:50的比例,将错误的点的权重变成7/3;第二次分类 ,正确的是11,错误的是3,错误的点的权重变成11/3。

监督学习——集成方法_第8张图片

监督学习——集成方法_第9张图片

监督学习——集成方法_第10张图片

权重公式:weight = ln\left ( \frac{accuracy}{ 1 - accuracy} \right ),这个公式可以变形,就是:正确的点 / 错误的点,然后再取对数。

监督学习——集成方法_第11张图片

如下图这种极端模型,几乎不可能发生,没什么可担心的,但是为了一致性检查,仍然有必要,来分如下这种极端案例。

监督学习——集成方法_第12张图片

 

 

集合模型

监督学习——集成方法_第13张图片

监督学习——集成方法_第14张图片

监督学习——集成方法_第15张图片

监督学习——集成方法_第16张图片

下图的做法,把右侧的三张图放到左侧图片中,对应的位置天上数字,图与图之间用加班做运算。

监督学习——集成方法_第17张图片

监督学习——集成方法_第18张图片

slearn中的Adaboost

>>> from sklearn.ensemble import AdaBoostClassifier
>>> model = AdaBoostClassifier()
>>> model.fit(x_train, y_train)
>>> model.predict(x_test)

超参数

当我们定义模型时,我们可以确定超参数。在实际操作中,最常见的超参数为:

  • base_estimator: 弱学习器使用的模型(切勿忘记导入该模型)。
  • n_estimators: 使用的弱学习器的最大数量。

比如在下面的例子中,我们定义了一个模型,它使用 max_depth 为 2 的决策树作为弱学习器,并且它允许的弱学习器的最大数量为 4。

>>> from sklearn.tree import DecisionTreeClassifier
>>> model = AdaBoostClassifier(base_estimator = DecisionTreeClassifier(max_depth=2), n_estimators = 4)

相关学习资源

AdaBoost 的优秀资源:

  • 这是一篇由 Freund 和 Schapire 合著的原始论文。
  • 由 Freund 和 Schapire 合著的关于Adaboost几项实验的后续论文。
  • 来自 Schapire 很棒的教程。

你可能感兴趣的:(监督学习)