机器学习 复习三(决策树、贝叶斯统计、集成学习)

决策树

关键:如何选择最优划分属性

信息增益

度量样本集合纯度最常用的一种指标
在这里插入图片描述
在这里插入图片描述
信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,使用"增益率" (gain ratio) 来选择最优划分属性

信息增益率:(C4.5算法)

在这里插入图片描述
增益率准则对可取值数目较少的属性有所偏好,因此 , C4.5算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的

基尼系数(CART):

机器学习 复习三(决策树、贝叶斯统计、集成学习)_第1张图片
数据集 D 中随机抽取两个样本,其类别标记不一致的概率.因此, Gini(D) 越小,则数据集 D 的纯度越高.

减枝处理

应用过拟合
预剪枝
在决策树生成过程中,低每个节点划分前进行估计,若当前节点划分不能带来决策树泛化性能提升,则停止划分,当前节点标记为叶节点
后剪枝
从训练集生成一颗完整决策树后,自底向上对非叶节点记性考察,若将对应的子树替换为叶节点能带来泛化性能提升,则替换

贝叶斯分类

条件风险:
在这里插入图片描述

寻找准则最小化条件风险
在这里插入图片描述
h*被称为贝叶斯最优分类器
得到后验概率,两种策略,建模得到判别式模型,生成型模型

参数估计:
最大似然估计:

朴素贝叶斯分类器:
假设条件独立
在这里插入图片描述

集成学习

结合多个学习器,每个学习器要有差异和多样性
两类集成学习:即个体学习器问存在强依赖关系、必须串行生成的序列化方法
(Boosting);以及个体学习器间不存在强依赖关系、可同时生成的并行化方法(Bagging和随机森林)
假设及分类器错误率互相独立

Boosting(降低偏差)

先用初始训练集训练出一个基学习器,再根据表现对训练样本进行调整,让分类错误的训练样本收到更多关注,基于调整后的样本分布训练下一个基学习器,重复知道基学习器数据达到实现指定值,最后将这些学习期进行加权集合
AdaBoost算法
机器学习 复习三(决策树、贝叶斯统计、集成学习)_第2张图片

Bagging (降低方差)

基于自助采样法,给定m个训练样本的采样集,随机取出样本放入采样集中,再放回初始数据集,经过m次操作得到采样集,基于每个采样集训练出一个基学习器,结合

随机森林

Bagging扩展,传统决策树选择划分属性是选择最优属性,而随机森林是从该节点的属性中随机选择一个包含k个属性的子集,在从这个子集中选择一个最优属性进行划分

你可能感兴趣的:(机器学习)