SPSS决策树和神经网络

决策树常用于解决分类问题,决策树算法就是根据训练数据集,通过一系列的测试问题,从而完成对输出分类目标的进行划分,

他首先有一个根节点(只出不进),然后再有很多的内部节点(一入两出),内部节点(只进不出),再到叶子节点及对于任意一个样本数据,有且只有一条规则,与其一一对应,并可以最终输出分类结果,这就是决策树。

决策树如果要利用的话,有两个步骤,分别是决策树的生长与决策树的剪枝,决策树的生长就是为决策树提供充足的判断条件(提高纯度),减枝则是防止过拟合问题。

划分结束条件一般如下,子集中所有样本都属于统一类别,不需要再进行划分。所有样本的属性一样,继续划分也不能改善结果

过拟合问题在决策树中是十分严重的,我们要想办法对其进行削减,一般而言,决策树的剪枝可以分为预减枝后减枝,预减枝主要是通过增加生长的限制条件来防止过拟合的出现。后减枝则是在决策树生长充分之后再通过一定标准对决策树的一些分支进行修剪,而达到防止过拟合的效果。

决策树

c5.0节点

我们使用这个可以实现决策树在字段,选项卡选择预定义角色。
在模型选项卡中使用分区数据,如果使用的分区节点或预定义分割分区字段,就可以使用分区数据为每个分割构建模型。如果在类型节点把某字段的角色设置为拆分模型,将会为该字段下的每一个单独分割出一个模型及如果存在五个水平,然后他定义为拆分字段,那么将会针对五个水平建立五个独立的模型输出模型。
输出类型设定结果的生成方式包括决策树和规则集。决策树则会生成树状结果。规则集则会生成规则分类结果。组符号,算法将尝试对分组变量的相似类别进行合并。使用bosting的技术将会生成多棵决策树,并通过组合投票的方式得出最后的结果,一般情况下,该选项将会提高模型的准确率。交叉验证将会使用交叉放验证的方式,对模型进行评估。
模式分为简单模式以及专家模式用于模型构建。
简单模式会选择决策树的生成模式,包括准确性和普遍性。选择准确性,将生成一个更详尽而精确的模型,也有可能会带来过拟合的问题。选择普遍性将会生成一个更加精简,更具有普适性的模型。不过,他在训练集中的精度可能会有所下降。预期噪声指定训练集中噪声样本的数量 
专家模式修剪严重性,具体指定决策树的修剪程度,默认执行度为75%,该值越大,得到的决策树越精简了。每个子分支最小记录数只有当指数的记录数均大于此,决策树时才会发生分裂,有助于防止过拟合问题的出现。全局修剪则是默认执行全局。辨别属性节点,将在使用算法前进行自变量的有效评估。如果某自变量发现与因变量关系不大,节点将自动剔除该自变量

成本选项卡主要用于设计误差成本代价

注:因此先将其角色设定为“目标”,余下的栏位则是要设定为“输入”。目标就是根节点,输入是其他的节点

在得到模型结果之后,可以选择表格进行输出,可以查看具体的每个案例的一个结果。进行分析,选择重合矩阵,我们可以看到,该规则及的一个总体的叙述效果。如果我们想要更加具体清晰,也可以换一个方式来进行查看规则集,那么我们可以使用查看器,也可以他是以规则树的方式来进行结果展示。


Cart算法可以处理连续型目标变量,也可以处理分类型的目标变量,而C5.0算法只能处理分类型的目标变量。
他的预减枝策略是指定决策树的最大生成度,即决策树最多能生成几层。另一个策略就是指定决策树节点当中样本数量的下限,如果样本数量的下限小于该值,就不会生成该分支节点。样本下限的设置方式,有指定父分支节点的下限,绝对值或样本比例。或者是指定子分直接点的下限绝对值或样本比例
后剪枝策略则为最小代价复杂度剪枝法

目标选项卡
构建新模型的意思是,每次运行模型节点将会生成一个全新的模型继续训练。现有模型选中,此项将会针对模型节点最后一次生成的模型继续训练,再有新纪录加入时将会十分的好用。
您的主要目标是什么?
构建单个数就是创建标准的决策树模型,它有三种创建方式,第一个是生成模型,就是自动创建。启动交互式对话,我们能够自定义然后生成模型,可以一点一点地去指定模型怎样的生产使用命令,我们可以保存在交互会话当中的指令。在此,通过指令来构建模型,增强模型的准确度,能够增强模型的准确性,但也需要更多的模型训练时间。增强模型的稳定性,他会构建模型,这个方法能够增强模型的稳定性,避免模型的过度拟和,但也需要更多的时间。大型数据集创建模型使用超大数据集时我们需要使用该选项,它的工作原理是,连接到服务器将超大型数据集划分为小的数据集,然后来进行模型的创建

基本选项上
最大数的深度
修剪树以防止过度拟合,如果想要获得完整的决策树,就需要取消这个选项。
设置最大风险差,如果他指定为一,最佳决策树的范围,将是允许在最低预测误差的基础上加一倍的风险。
最大代用项,就是处理缺失值的方法,最大代用项为5就是有五个等级的代用数来进行替补。
终止规则选项,他用于指定什么时候停止决策树的继续运行。

成本和先验
使用错误分类成本,该选项用于设定误差成本代价。
先验,他提供了三种方式设定先验分布,第一就是基于训练数据默认选项,将根据训练及数据进行计算。
对于所有类都相等,强行命令所有类别的先验概率取相同值定制。
可以手动定制每个类别的先验概率,但请先保证所有概率的总和为一。也可以使用均衡及所有的概率相等。
使用错误分类成本调整鲜艳,如果已经定义了错误的分类成本,那么将使用错误分类成本调整先验,从而影响树的生长
高级选项当中的最小杂质改变就是父节点产生分类的下限
分类指标的杂质测量有通过基尼系数和通过两分法来进行测量,也有有序的测量,对于过度拟合防止集合是从训练集中抽取独立的样本作为验证集用于后减枝的检验
复制结果,由于验证集的抽取是使用随机抽样的方式,可以通过设置随机种子的方式来保证重现结果。

记得选择表格和分析节点来看结果



生成规则集
生成里的规则集可以得到规则的具体详述,得到defaultRS
规则跟踪节点
在生成中选择规则跟踪节点。可以进一步查看评分结果以及根据哪条规则得到的。


类神经网络节点

模拟人脑反应的一种预测模型


一般在字段选项卡使用预定义角色
选项卡与决策树节点类似,基本选项卡中关于神经网络模型的种类选择有多层感知机和径向基函数。径向基函数只有一个隐藏层,学习速率相对较高,但预测能力要低于多层感知机隐藏层个数,可以自动计算。也可以由我们来进行定制。
终止规则选项用于设定什么时候停止训练。具体选项如下,可以使用最大训练时间、定制最大训练周期数量、使用最低准确性。如果我们使用最低准确性,有可能出现永远不会停止的状况,这个时候可以手动停止,这时得到的是目前为止最佳准确模型来作为最终的输出。
高级选项中
过度拟合防止集合就是从训练集中抽取独立的样本作为验证集,用于错误率的检验。
复制结果中,由于验证集的抽取是使用随机抽样的方式,因此通过设计随机种子可以保证重现结果。
预测变量中的缺失值。成列删除,若某个记录在输入变量时存在缺失值就会在建模阶段排除。插补缺失值,如果缺失值,将会对缺失值进行插补。对于分类型变量会插补众数,连续型变量会插补平均值。

报告节点:
表达式构建器
全部重复
重复位置
导入文本文件的内容
选择输出文件类型


如何对模型进行调试以获得最佳模型

你可能感兴趣的:(SPSS,Modeler,决策树,神经网络,数据分析)