r语言svr模型_使用R语言建立一个决策树回归模型

决策树是一种简单但使用广泛的分类算法,根据目标变量的类型,决策树分为分类决策树(目标变量为因子型)与回归决策树(目标变量为连续数值型)。在这里,我们使用R建议一个回归决策树模型。

决策树简单介绍

对于一个分类问题,我们可能需要多个属性值来构建问题,通过回答这些问题(比如长度大于多少,宽度大于多少,重量大于多少),有序地得到问题的答案,并重复问题到我们得到最后的分类,把上面的过程(问题、答案)有组织的组合在一起,就能形成类似倒立的树结构。图1:摘自《数据挖掘导论》

上面是摘自《数据挖掘导论》决策树章节,我们根据不同的属性特征,对动物进行分类。

问题1:体温特征是什么?

答案1:冷血→非哺乳动物;恒温→问题2;

问题2:是否为胎生?

答案2:胎生→哺乳动物;非胎生:非哺乳动物;

这就是一个简单的决策树,我们通过不停得提出问题,根据问题的答案又提出新的问题,不断重复直到得到我们的分类类别。这个过程称为决策树的生长,而第一个问题(问题1)我们称为根节点,其余问题(问题2,问题3,...,问题i)称为内部节点,最后的类别(哺乳动物、非哺乳动物)则称为叶结点。

什么是修枝?

决策树是一种监督下学习算法,需要提供变量与类别值(目标变量)。随着变量的增加,决策树也生长成一棵巨大的树,我们的内部节点也会非常多。这时候我们会发现这个内部节点的描述(问题n)可能就变成这样了:年收入大于50000元、年龄大于50岁、姓名叫张三的人购买了此产品。越多的限定条件(规则),越能够拟合训练集,但使用上面的限定条件来预测未知测试集。我们就会发现预测的结果非常不理想(根本没有名字叫张三的人年收入在50000且年龄大于50),这就是模型的过拟合。

为了避免模型过拟合,我们要对决策树进行修枝。很形象的说法,对于一棵枝叶茂盛的树,我们通过修枝让树枝按我们想要的方向生长。而在决策树种,通过修枝,我们把限定条件适当的减去(比如把名字叫张三这个内部节点删去),防止模型过拟合。常用的修枝方法有:预修枝;

后修枝;

预修枝:在建立模型之前,我们就指定了决策树的最大深度(内部节点数),或者最小样本量。但是需要我们对变量的业务理解较深&#x

你可能感兴趣的:(r语言svr模型)