人工智能AI-集成学习/模型融合技术

                                                     人工智能AI-集成学习/模型融合技术_第1张图片

  • 模型融合/集成学习:

将一组弱/基预测器的预测结果进行融合/集成, 以实现一个强预测器,从而获得比单个预测器更好的泛化能力/鲁棒性。 下面是多数表决的投票分类器,基预测器是不同种类,逻辑回归、支持向量机、随机森林等。

                                               人工智能AI-集成学习/模型融合技术_第2张图片

  • 模型融合的聚合策略(对所有弱预测器的预测结果进行聚合所采用的策略。): 

                                                    人工智能AI-集成学习/模型融合技术_第3张图片 

1. 平均法:一般用于回归预测模型中。平均法包括一般的平均和加权平均融合。 投票回归器(Voting Regressor)、Boosting系列融合模型

2. 投票(Voting)法:一般用于分类模型。具体可分为绝对多数投票(得票超过一半),相对多数投票(得票最多),加权投票。 • bagging模型、投票分类器(Voting Classifier)

3. 学习法:通过另一个预测器(称为混合器或元学习器) 来实现聚合。常见的有Stacking和Blending两种。stacking一般使用交叉验证的方式、Blending是建立一个Holdout集 。

  • 模型融合的分类

     按照弱预测器之间的依赖关系,模型融合方法可分为两类:

– 弱预测器间不存在强依赖关系、可同时学习的并行化方法。例如弱预测器只有一种,即所有的弱预测器都是基于同一类模型。代表是Bagging 和随机森林。弱预测器的种类多。比如,投票分类器,投票回归器,Stacking。

– 弱预测器间存在强依赖关系、必须串行学习的序列化方法,代表是Boosting方法。

     注意区分:强依赖 ≠ 强相关性

• 弱预测器之间存在强依赖,是指单个弱预测器的训练存在必需的先后关系;

• 弱预测器之间若存在强相关性,会影响融合后的性能。所以弱预测器之间的相关性要尽可能的小。弱预测器之间尽可能相互独立时,集成得到的强预测器的性能最优。降低弱预测器之间的相关性呢?

      (1)增加弱预测器的种类越多

      (2)各预测器基于不同的训练子集进行训练:训练样本随机

      (3)各预测器基于不同的特征子集进行训练:特征随机 

  • 模型融合的常用方案

1.Voting Classifier(投票分类器)

       分类问题中的模型融合/集成学习,结合了多个不同种类的机器学习分类器, 并且采用多数表决(majority vote)(硬投票)或者平均预测概率(软投票)的聚合方式来预测分类标签。可以用于融合/集成一组同样表现良好的模型,以便平衡它们各自的弱点。 

                    人工智能AI-集成学习/模型融合技术_第4张图片                  人工智能AI-集成学习/模型融合技术_第5张图片

                                            人工智能AI-集成学习/模型融合技术_第6张图片 

  • 如何训练混合器

1. 训练集被分为两个子集:第一个子集被用作训练第一层的预测器; 第二个子集用于构造混合器的训练集。 

2. 在第一个子集上训练第一层的预测器;

                                              人工智能AI-集成学习/模型融合技术_第7张图片

3. 用第一层的预测器对第二个子集中的样本进行预测;

4. 将前一步的预测结果作为输入特征,保留第二个子集中的标签,从而创建一 个新的训练集;

5. 在该新训练集上训练混合器,即根据第一层预测器的预测值来拟合标签。 

                                                           人工智能AI-集成学习/模型融合技术_第8张图片

 

                                                        人工智能AI-集成学习/模型融合技术_第9张图片 

                人工智能AI-集成学习/模型融合技术_第10张图片                     人工智能AI-集成学习/模型融合技术_第11张图片

 

你可能感兴趣的:(大数据与人工智能)