分类Classification:决策树Decision Tree

目录

分类的定义

决策树Decision Tree

混乱衡量指标Gini index

决策树的特点


分类的定义

分类:建立一个学习函数(分类模型)将每个属性集合(x1,x2,...xn)对应到一组已定义的类别y中。

分类结果的评估的四大指标:

  • Precision精确度
  • Recall召回率
  • Accuracy准确度
  • Error rate错误率

分类矩阵/混淆矩阵confusion Matrix:

实际
 地雷玩家 非地雷玩家
预估 地雷 a b
非地雷 c d

Precision=\frac{a}{a+b}     越高越好

Recall=\frac{a}{a+c}           越高越好

Accuracy=\frac{a+d}{a+b+c+d}        越高越好

Error\, rate=\frac{b+c}{a+b+c+d}        越小越好

决策树Decision Tree

决策树是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。

混乱衡量指标Gini index

Gini index擅长处理True或False的二元分类树。其计算公式为:

Gini(x)=1-\sum (P(Xi)^{2})

其中: 

分类Classification:决策树Decision Tree_第1张图片

Gini index的计算 :

分类前数据:

分类属性1:偏好女主角

分类Classification:决策树Decision Tree_第2张图片

Gini(left)=1-[(\frac{4}{7})^{2}+(\frac{3}{7})^{2}]=0.4898        

Gini(right)=1-[(\frac{2}{5})^{2}+(\frac{3}{5})^{2}]=0.48        

\Delta =0.5-(\frac{7}{12}*0.4898+\frac{5}{12}*0.48)=0.014    表示在该分类属性下的分类效果,Δ越大越好

分类属性2:能carry整场

分类Classification:决策树Decision Tree_第3张图片

Gini(left)=1-[(\frac{1}{5})^{2}+(\frac{4}{5})^{2}]=0.32

 Gini(right)=1-[(\frac{5}{7})^{2}+(\frac{2}{7})^{2}]=0.4081

\Delta =0.5-(\frac{5}{12}*0.32+\frac{7}{12}*0.4081)=0.129

综上,可以看出属性2的分类效果比较好。

属性分支数与模型复杂度:在决策树中,分支数越多,乱度越低,但模型越复杂(即过度适配)。

决策树的特点

  • 建设成本低,速度快,一次构建,反复使用;
  • 模型可以读性好,具有描述性,有助于人工分析;
  • 乱度测量方法的选择对分类结果影响不大;

你可能感兴趣的:(学习笔记,分类,数据挖掘,决策树,Gini,index)