第5章 CART决策树

CART决策树

CART:Classification And Regression Tree
最小二乘回归树

回归树模型

f ( x ) = ∑ m = 1 M C m I ( x ∈ R m ) f(x) = \sum_{m=1}^{M}C_mI(x \in R_m) f(x)=m=1MCmI(xRm)

所设CART树分成了M个叶子结点,每个叶子结点对应的输出标签为 C m C_m Cm

即:
f ( x ) = C m , i f x ∈ R m f(x) = Cm, if x \in R_m f(x)=Cm,ifxRm

划分

选择第j个特征 x ( j ) x^{(j)} x(j)和它的取值s:
R 1 ( j , s ) = { x ∣ x ( j ) ≤ s } R 2 ( j , s ) = { x ∣ x ( j ) > s } R_1(j, s) = \{x | x^{(j)} \le s\} \\ R_2(j, s) = \{x | x^{(j)} \gt s\} R1(j,s)={xx(j)s}R2(j,s)={xx(j)>s}

策略

寻找最优变量j, s使得R1、R2的平方误差之和最小

CART和ID3、C4.5的区别

ID3、C4.5 CART
基于feature划分 基于(feature, value)划分
该特征可以有几个取值,就划分成多少个子树 2叉树
该特征的每一个取值对应一个子树 分为X[:,feature]<=value和X[:,feature]>value

你可能感兴趣的:(李航,-,统计学习方法)