决策树-cart

决策树是最常见的有监督学习模型,常被应用到分类和回归分析中。

在学习决策树的过程中,cart中提到了Gini系数和Gini指数的计算,下面进行总结。

一、基尼指数

  • 定义:基尼指数(基尼不纯度):表示在样本集合中一个随机选中的样本被分错的概率。
  • 注意: Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。
  • 即 基尼指数(基尼不纯度)= 样本被选中的概率 * 样本被分错的概率
    Gini系数定义

如表:

年龄 长相 工资 写代码 类别
小A 不会 不见
小B 年轻 一般 中等
小C 年轻 不会 不见
小D 年轻 一般
小L 年轻 一般 不会 不见

有时间补上

你可能感兴趣的:(决策树-cart)