Decision Tree and Regression Tree

下面是维基百科上对分类树和回归树的解释

Tree models where the target variable can take a finite set of values are called classification trees. In these tree structures, leaves represent class labels and branches represent conjunctions of features that lead to those class labels. Decision trees where the target variable can take continuous values (typically real numbers) are called regression trees.



决策树在机器学习中常用来解决分类问题,用以解决非连续性问题。

回归树针对连续性问题,输出结果往往是一个具体的值

决策树是多分枝的,即多叉树,决策树的每个叶节点代表一个类,当测试样例从根节点沿着某条路径到达某个叶节点时,该测试样例便被决策树判断为该叶节点所对应的类别

决策树创建的算法主要有ID3,C4.5,CART;其中用CART方法创建的称为分类回归树,即可解决分类问题也能解决回归问题,是目前常用方式。

ID3:

ID3创建的是一个多分支树,适用于非连续性情况,用以解决分类问题,构造的是一个多分支树。

树的分支节点为一个逻辑判断,如形式为a=ai的逻辑判断,其中a是属性,ai是该属性的某一取值。

属性a一般选取能对该节点处的训练数据进行最优划分的属性,评判标准常用信息增益GINI来表示:

argmax(Gini-GiniLeft-GiniRight)

其中Gini=1-∑(P(i)*P(i)),P(i)是当前节点上类i所占的比例值,假设当前节点有100个样本,且共分3个类,类a有20,类b有30,类c有50个,则Gini=1-0.2*0.2-0.3*0.3-0.5*0.5=0.62, 可见当分布越均匀时Gini越大,即对类的区别能力越小,故Gini的值应越小越好。

C4.5:

C4.5其实是对ID3的改进,支持了连续性问题的情况,为了处理连续型数据,该算法在相应的节点使用一个属性的阈值,利用阈值将样本划分成两部分。

CART:

CART全名Classification And Regression Trees,用以创建分类回归树,同时支持分类和回归问题。因为支持连续问题,故节点划分时采用的是阀值。

CART是目前最常用的方式,随机森林里的树就是采用这种方式建造。

对于分类划分的评判标准可采用Gini值。

对于回归问题采用方差缩减(variance reduction):argmax(Var-VarLeft-VarRight)

即使得当前节点训练集的方差Var减去减去左子节点的方差VarLeft和右子节点的方差VarRight值最大。

你可能感兴趣的:(机器学习,决策树,回归树)