「ML」Chap4决策树

决策树
1. 划分选择:
1.1 信息增益(ID3)
信息熵的定义:

Ent(D)=k=1|y|pklog2pk

Ent(D)越小,纯度越高
信息增益(information gain)
Gain(D,a)=Ent(D)v=1V|Dv||D|Ent(Dv)

一般而言,信息增益越大,属性划分所获的的纯度提升越大。
1.2 信息增益率(C4.5)
信息增益准则可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,C4.5改进成增益率,定义为:
Gainratio(D,a)=Gain(D,a)IV(a)

其中:
IV(a)=v=1V|Dv||D|log2|Dv||D|

1.3 基尼指数
Gini(D)=k=1|y|kkpkpk=1k=1|y|p2k

Gini(D)越小,数据集D的纯度越高。
Giniindex(D,a)=v=1V|D||Dv|Gini(Dv)

2. 剪枝处理
剪枝处理分为预剪枝 和 后剪枝
预剪枝开销大,每次决策计算一次验证集精度。
后剪枝则在生成决策树之后,对分支计算验证集精度,精度有提升则剪枝

你可能感兴趣的:(机器学习算法)