【决策树算法】{3} —— CART算法

CART算法

CART(Classification and Regression Tree,即分类回归树算法)是一种著名的决策树学习算法,可用于分类和回归任务。


C A R T CART CART 算法使用“基尼指数”来选择划分属性。


基尼指数

假定当前样本集合 D D D 中第 k k k 类样本所占的比例为 P k ( k = 1 , 2 , . . . , ∣ y ∣ ) P_k (k=1,2,...,|y|) Pk(k=1,2,...,y)

数据集 D D D 的纯度可用基尼值来度量:
G i n i ( D ) = ∑ k = 1 ∣ y ∣ ∑ k ′ ≠ k p k p k ′ = ∑ k = 1 ∣ y ∣ p k ( 1 − p k ) = 1 − ∑ k = 1 ∣ y ∣ p k 2 Gini(D)=\sum^{|y|}_{k=1}\sum_{k'≠k}p_kp_{k'}=\sum^{|y|}_{k=1}p_k(1-p_k)=1-\sum^{|y|}_{k=1}p^2_k Gini(D)=k=1yk=kpkpk=k=1ypk(1pk)=1k=1ypk2
直观来说, G i n i ( D ) Gini(D) Gini(D) 反映了从数据集 D D D 中随机抽取 2 2 2 个样本,其类别标记不一致的概率。因此,$Gini(D) $ 越小,基尼值越小,则数据集 D D D 的纯度越高。属性 α α α 的基尼指数定义:
G i n i _ i n d e x ( D , a ) = ∑ v = 1 V ∣ D v ∣ ∣ D ∣ G i n i ( D v ) Gini\_index(D,a)=\sum^V_{v=1}\frac{|D^v|}{|D|}Gini(D^v) Gini_index(D,a)=v=1VDDvGini(Dv)
基尼指数越小,表示使用属性 a a a 划分后纯度的提升越大。因此,在属性集合 A A A 中,选择基尼指数最小的属性 a a a 作为最优划分属性,即 a ∗ = a r g a ∈ A m i n G i n i _ i n d e x ( D , a ) a_*=arg_{a∈A}minGini\_index(D,a) a=argaAminGini_index(D,a)

C A R T CART CART 算法中主要分为两个步骤

  1. 将样本递归划分进行建树过程

  2. 用验证数据进行剪枝


Reference:《机器学习》

你可能感兴趣的:(【机器学习】)