7-集成学习 Adaboost

7-集成学习 Adaboost

一个集成样本不准 另一个准 运用好的样本 性能就能得到提升

7-集成学习 Adaboost_第1张图片

Bagging

装袋算法

多个决策树会互补

通过去的分类性能会好于单个分类器 对每个基分类器,多个模型分类同时预测输出然后利用集成器进行集成输出

7-集成学习 Adaboost_第2张图片

Bagging;又放回的训练集 取众数(投票)至于Bagging训练集取多少次 取决于调参

Bagging:要求不稳定的分类方法:决策树,神经网络算法

不稳定:数据集小的变动能够使得分类结果的显著的变动,列出所有的模型 计算所有的轮数

Bagging特点:

通过降低基分类器的方差改善了泛化误差。

Bagging的性能依赖于基分类器的稳定性:

如果基分类器不稳定(决策树 神经网络)装袋有助于降低训练数据的随机波动导致的误差 稳定算法bagging的性能不会有明显改善

由于每一个样本被选中的概率相同,因此袋装并不侧重于训练数据集中的任何特定实例,因此对于噪声数据,bagging不会太受过分拟合的影响

Boosting

Boosting是一个顺序过程,每个后续模型都会尝试纠正先前模型的错误。后续的模型依赖于之前的模型

第一步:从原始数据集创建一个子集

第二步:最初,所有的数据点都具有相同的权重

第三步:在此子集上创建基础模型

第四步:该模型用于对整个数据集进行预测

最终模型是所有模型的加权平均值 单个模型在整个数据集上表现不佳,但是整体的效果很好

7-集成学习 Adaboost_第3张图片

7-集成学习 Adaboost_第4张图片

Bagging & Boosting算法区别

7-集成学习 Adaboost_第5张图片

Stacking Blending

每次训练一个模型就立刻给他压栈

RF

随机森林 随机有放回的抽样 随机属性选择

7-集成学习 Adaboost_第6张图片

随机森林的可解释性比较差,容易发生过拟合 调参需要控制

RF使用

随机森林预测对方是否买车?

分析之后 决策树比随机森林高

gridSearchCV:

7-集成学习 Adaboost_第7张图片

随机森林每一次都是最适合的调参去训练

调节最大决策树的个数;注意树的深度,不能太小!!!

样本不够 会导致获得信息不全面 泛化能力不够 需要加强 袋外模型打分具有很强的泛化性能

Adaboost

Adaptive Boosting 自适应提升

很多弱分类器 构成一个强分类器

7-集成学习 Adaboost_第8张图片

错误的分类错误 增加权重

7-集成学习 Adaboost_第9张图片

GBDT

对树的提升树

决策树可以用于分类 也可以用于回归

GBDT:每一次建立模型是在之前建立模型损失函数的梯度下降方向

是一种迭代的决策树算法,

7-集成学习 Adaboost_第10张图片

image-20221105195159189

7-集成学习 Adaboost_第11张图片

无监督训练算法的核心就是 没有标签 只需要特征矩阵而其中聚类算法就是一个代表,

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-itXNxrjn-1667828552935)(https://cdn.staticaly.com/gh/hudiework/img@main/image-20221105203409082.png)]

聚类算法常用的两类:层次聚类 K均值聚类

聚类的核心是相似度 或者是距离

K均值聚类算法:

7-集成学习 Adaboost_第12张图片

你可能感兴趣的:(集成学习,算法)