机器学习 西瓜书 第四章决策树 读书笔记

感觉这章挺有意思的,这是我感兴趣的几个点:一是在进行决策时,进行分支的依据,我们通过信息熵(information entropy)来作为度量样本集合纯度的指标;二是信息增益(information gain),我们通过信息增益的值来选择最优划分属性。同时,减枝处理涉及到了特征的选择,其中也用到了奥卡姆剃刀原则,删去无关的内容之后可能会提高决策树的拟合程度,减少了杂乱信息对决策的影响。

4.1 基本流程
一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;
叶结点对应于决策结果?其他每个结点则对应于一个属性测试;
每个结点包含的样本集合根据属性测试的结果被划分到子结点中;
根结点包含样本全集.从根结点到每个叶结点的路径对应了一个判定测试序列.

4.2 划分选择
4.2.1 信息增益
信息熵:用来描述信息中不确定性的值,熵越低,不确定性越低,我们也就更容易得到确定的信息。
信息熵的计算
4.2.2 增益率
增益率:表示节点的信息与节点分裂信息度量的比值。先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的.
4.2.3 基尼指数
基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。

4.3 剪枝处理
预剪枝
在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点;
后剪枝
后剪枝则是先从训练集生成一棵完整的决策树,
然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点
一般情形下,后剪枝决策树的欠拟合风险很小,泛化性能往往剪枝决策树.但后剪枝过程是在生成完全决策树之后进行的 并且要白底向上对树中的所有非叶结点进行逐 考察,因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多.

4.4 连续与缺失值
连续值
根据信息增益计算临界值bound,进行决策选择
缺失值
对于缺失值引入权重的概念

4.5 多变量决策树
在此类决策树中,非叶结点不再是仅对某个属性,而是对属性的线性组合进行测试;

你可能感兴趣的:(西瓜书,决策树,机器学习,算法)