回归树与基于规则的模型(part1)--if-then语句

学习笔记,仅供参考,有错必纠


回归树与基于规则的模型


if-then语句


基于树的模型由一个或多个针对预测变量的 i f − t h e n if-then ifthen语句组成,它们被用来对数据进行划分,基于这些划分,一个特定的模型将用来对结果变量进行预测。

例如,一个简单的树模型可以定义为:
回归树与基于规则的模型(part1)--if-then语句_第1张图片

在这个例子中,二维的预测变量空间被分为了三块区域,并且在每一块区域中,结果变量将被预测为同一个数字。

下图将这些规则表达在了预测变量空间中:

回归树与基于规则的模型(part1)--if-then语句_第2张图片

利用树模型的术语,我们称数据进行了两次切分,并形成了3个最终节点(叶)。最终节点中的模型表达式将被用来计算预测值,表达式可以简单,可以复杂。

注意到一棵树生成的 i f − t h e n if-then ifthen语句定义了样本到任何一个最终节点唯一的一条路径。一条规则就是一系列的 i f − t h e n if-then ifthen语句,并且它们被展开成了若干相互独立的条件,对于上述例子,共有三条规则:

当样本被多条规则覆盖时,规则可以在一定程度上被简化或进行剪枝。这种方法相对于简单的树模型有若干优势。

树模型和规则模型之所以成为非常流行的建模工具,是基于以下几个原因:

①首先,它们生成的条件极富解释力,并且易于实现

②其次,根据它们建立模型时采用的逻辑,它们能有效地处理各种类型的预测变量(比如稀疏的、偏态的、连续的和分类的),而不需要对这些变量事先进行预处理

③此外,这些模型不需要用户对响应变量预测变量之间的关系进行指定;

④最后,这些模型可以有效地处理缺失值

然而,由单一的树或规则建立的模型也具有一些特定的缺点

①模型的不稳定性(数据中的微小变动可能会引起树或规则结构的巨大变化,从而影响解释性);

次优的预测能力,因为模型定义了一系列的矩形区域,从而,它们得到的结果具有一定的同质性。如果响应变量与预测变量之间的关系不能充分地通过矩形子空间来进行表达,那么树模型和规则模型将产生比其他模型更大的预测误差。

为了克服这些问题,研究者提出了集成模型,它们将许多棵树(或规则)进行组合。集成模型通常具有比单一的树模型好得多的预测表现。

你可能感兴趣的:(数据挖掘,机器学习,树模型)