决策树算法学习笔记之决策树原理

目录

树模型

如何切分特征即选择节点(决策树中最关键的部分)

衡量标准-熵

决策树算法

决策树剪枝策略


树模型

        决策树:从根节点开始一步步走到叶子节点(决策过程)

        所有的数据最终都会落到叶子节点,既可以做分类也可以做回归

如何切分特征即选择节点(决策树中最关键的部分)

  • 问题:根节点的选择应该用哪个特征呢?如何切分呢?

        根节点像一个老大一样能更好的切分数据(即分类效果更好),根节点下面的节点就相当于二当家。

  • 目标:通过一种衡量标准,来计算通过不同特征进行分支选择后的分类情况,找出来最好的那个当成根节点,以此类推。

衡量标准-熵

  1.  定义:表示随机变量不确定性的度量,不确定性越大,得到的熵值也就越大
  2. 公式:H(X)=-\sum pi*logPi, i=1,2,3...n

思考:在分类任务中我们希望通过节点分支后数据类别的熵值大还是小呢?当然是越小越好

如何决策一个节点的选择呢?

        信息增益:表示特征X使得类Y的不确定性减少的程度。(分类后的专一性,希望分类后的结果是同类在一起)

决策树算法

  • ID3:信息增益
  • C4.5:信息增益率(解决ID3的问题,考虑自身熵)
  • CART:使用GINI系数来当做衡量标准
  • GINI系数:Gini(p)=\sum_{k=1}^{K}p_{k}(1-p_{k})=1-\sum_{k=1}^{K}p_{k}^{2}(和熵的衡量标准类似,计算方式不相同)

决策树剪枝策略

  • 为什么要剪枝:决策树过拟合风险很大,理论上可以完全分得开数据(如果树足够庞大,每个叶子节点就一个数据)
  • 剪枝策略:预剪枝,后剪枝
  • 预剪枝:边建立决策树边进行剪枝的操作(更实用)

                限制深度,叶子节点个数,叶子节点样本数,信息增益量等

  • 后剪枝:

                通过一定的衡量标准C_{\alpha }(T)=C(T)+\alpha\cdot|T_{leaf}|,叶子节点越多,损失越大

你可能感兴趣的:(编程学习,Python编程问题,决策树,学习,算法)