【周志华机器学习】 西瓜书吃瓜教程 学习笔记总结Task03

第四章 决策树

4.1 基本流程

决策树的生成是一个递归过程:【周志华机器学习】 西瓜书吃瓜教程 学习笔记总结Task03_第1张图片

 4.2 划分选择

关键在于从A中选择最优划分属性a*使结点的“纯度”purity越高

信息熵 information entropy:度量样本集合纯度最常用的一种指标。

假定当前样本集合中第k 类样本所占的比例为也(k = 1,2,… ,\left | y \right | ) , 则 D 的信息嫡定义为

 Ent(D)的值越小,则D的纯度越高.

信息增益 information gain:a* = argmaxGain (P,a)属性a 对样本集D 进行划分所获得的

但信息增益准则对可取值数目较多的属性有所偏好,故使用如下来选择最优划分属性。

增益率 gain ratio:

其中属性 a 固有值 intrinsic value:

C4.5决策树算法: 先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的
CART决策树:使用 “基尼指数 "(Gini index)来选择划分属性, 选择那个使得划分后基尼指数最小的属性作为最优划分属性,即 a* = arg min Gini_index(P, a).

【周志华机器学习】 西瓜书吃瓜教程 学习笔记总结Task03_第2张图片

基尼指数Gini(D): 反映了从数据集 D 中随机抽取两个样本,其类别标记不一致的概率

4.3 剪枝处理
剪枝 (pruning) 是决策树学习算法对付“过拟合”的主要手段,决策树剪枝的基本策略有 预剪枝prepruning 后剪枝post- pruning
预剪枝prepruning: 指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。 【周志华机器学习】 西瓜书吃瓜教程 学习笔记总结Task03_第3张图片

后剪枝post- pruning: 先从训练集生成一棵完整的决策树, 然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能80带来决策树泛化性能提升,则将该子树替换为叶结点。 【周志华机器学习】 西瓜书吃瓜教程 学习笔记总结Task03_第4张图片
一般情形下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树,但训练时间开销就会远大于未剪枝和预剪枝。

 4.4 连续与缺失值

二分法(bi-partition)对连续属性进行处理,对连续属性见 我们可考察包含n - 1 个元素的候选划分点集即把区间依看\left [a^{i},a^{i+1} \right )的中位点作为候选划分点,然后就可像离散属性值一样来考察这些划分点

Q:(1) 如何在属性值缺失的情况下进行划分属性选择?

   给定训练集D 和属性血 令 \widetilde{D}表 示 D 中在属性a 上没有缺失值的样本子集,显然我们仅可根据\widetilde{D}来判断属性a的优劣,每个样本x出赋予一个权重w_{x},并定义

【周志华机器学习】 西瓜书吃瓜教程 学习笔记总结Task03_第5张图片

得信息增益的计算式: 

【周志华机器学习】 西瓜书吃瓜教程 学习笔记总结Task03_第6张图片

【周志华机器学习】 西瓜书吃瓜教程 学习笔记总结Task03_第7张图片

Q:(2)给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
   若样本x在划分属性a 上的取值已知,则将x划入与其取值对应的子结点,且样本权值在子结点中保持为w_{x}.若样本x在划分属性a上的取值未知,则将x 同时划入所有子结点,且样本权值在与属性值a^{v} 对应的子结点中调整为\widetilde{^{r_{v}}} \cdot ^{w_{x}}直观地看,这就是让同一个样本以不同的概率划入到不同的子结点中去.
​​​​​​​

4.5 多变量决策树  

决策树所形成的分类边界有一个明显的特点: 轴平行(axis-parallel),即它的分类边界由若干个与坐标轴平行的分段组成。 

【周志华机器学习】 西瓜书吃瓜教程 学习笔记总结Task03_第8张图片

“多变量决策树"multivariate decision tree: 能实现这样的“斜划分”甚至更复杂划分的决策树.以实现斜划分的多变量决策树为例,在此类决策树中,非叶结点不再是仅对某个属性,而是对属性的线性组合进行测试,即每个非叶结点是一个形如\sum_{i=1}^{d}\omega _{i}a_{i}=t的线性分类器。

【周志华机器学习】 西瓜书吃瓜教程 学习笔记总结Task03_第9张图片

与传统的“单变量决策树 " univariate decision tree 不同,在多变量决策树的学习过程中不是为每个非叶结点寻找一个最优划分属性,而是试图建立一个合适的线性分类器。

你可能感兴趣的:(【周志华机器学习】,西瓜书吃瓜教程,学习笔记总结,机器学习,学习,决策树)