《数据挖掘概念与技术》第八章 分类:基本概念

分类

本章中讲到了三种分类方法:

决策树分类

在决策树分类中详细介绍了三种决策树的属性选择度量:

信息增益

分区D为标记类元组的训练集。
D的熵,即所需要的期望信息为:
在这里插入图片描述

按某属性A划分D,则该期望值为:
在这里插入图片描述
属性A的信息增益值为:
在这里插入图片描述
ID3采用信息增益。
信息增益度量偏向于具有许多输出的测试,即偏向具有大量值的属性。

增益率

但若每个属性的元组个数为1,此时的信息增益无法对属性的划分提供有效信息。
以属性A划分D,划分点的值:
在这里插入图片描述
增益率:
在这里插入图片描述
C4.5采用增益率。
增益率的出现即试图克服信息增益的偏倚。但增益率倾向于产生不平衡的划分,其中一个分区比其他分区小得多。
信息增益度量关于分

你可能感兴趣的:(Data,Mining,分类,数据挖掘,决策树,规则,朴素贝叶斯)