决策树

树的组成

衡量标准——熵

熵:熵是表示随机变量不确定性的度量(解释:说明物体内部的混乱程度)
公式:H(X) = - ΣPi * logPi , i = 1,2……n
image.png


案例分析

image.png

image.png

image.png

剪枝处理——防止过拟合

  • 预剪枝:是指决策树生成过程中,对每个节点在划分前进行估计,若当前节点的划分不能带来决策树返话费能力的提升,则停止划分并将当前节点标记为叶结点————>缺点(有可能欠拟合)
  • 后剪枝:先从训练集生成一棵完整的决策树,然后自底而上地对非叶节点进行考察,若将该点对应的子树换为叶节点能带来决策树泛化能力的提升,则该子树替换为叶节点————>缺点(训练时间长)


    image.png

集成算法

image.png
Bagging模型

image.png

随机森林

Boost模型

Stacking模型

你可能感兴趣的:(决策树)