SPSS Modeler C5.0学习笔记

  • 学习资料

IBM SPSS Modeler 18.0 Applications 第8章

  • 数据源描述
    数据源名称:DRUG IN数据文件
    SPSS Modeler C5.0学习笔记_第1张图片

  • 应用模型

C5.0
C5.0 节点可以构建决策树或规则集。该模型的工作原理是根据在每个级别提供最大信息收获的字段拆分样本。目标字段必须为分类字段。允许进行多次多于两个子组的拆分。不支持交互式树创建

  • 分析思路

已收集了关于身患同一疾病的一组患者的数据。在治疗过程中,每位患者均对五种药物中的一种有明显反应,您通过数据挖掘找出适用于今后患有此疾病的患者的药物。

  • 设计步骤

1、选取源节点“var.file”,读取外部数据源;
选中从文件读取字段名称Read file names from files
数据选项卡,可以覆盖和更改某个字段的存储(这里的存储不同于测量)
类型选项卡,可以帮助解数据中的更多字段类型。还可以选择 读取值 来查看各个字段的实际值
SPSS Modeler C5.0学习笔记_第2张图片

SPSS Modeler C5.0学习笔记_第3张图片
SPSS Modeler C5.0学习笔记_第4张图片
SPSS Modeler C5.0学习笔记_第5张图片
2、分析
(1)数据审核
SPSS Modeler C5.0学习笔记_第6张图片

(2)创建分布图,Drug设置为目标
显示药物 Y 的对症患者最多,药物 B和C的对症患者最少

SPSS Modeler C5.0学习笔记_第7张图片
SPSS Modeler C5.0学习笔记_第8张图片

(3)创建散点图,Drug设置为目标,Na设置为x字段,K作为y字段
现在来看一下有哪些因素会对药物(目标变量)产生影响。
作为数值型变量的有Age,Na,k,散点图可以很好的挖掘多数值型输入和分类型输出之间的关系
因此您可以使用药物类别作为颜色叠加来创建关于钠与钾的散点图。
SPSS Modeler C5.0学习笔记_第9张图片
SPSS Modeler C5.0学习笔记_第10张图片

导出新字段
由于钠与钾的比似乎可以用来预测何时可以使用药物 Y ,因此可以为每条记录导出一个包含此比值的字段。将“派生”节点(“字段选项”选项卡)附加到 DRUGln,然后双击此节点以进行编辑。
将新字段命名为 Na_to_K 。由于是通过将钠值除以钾值获取新字段, 所以请在公式中输人 Na/K 。
最后可以通过将“直方图”节点附加到“派生”节点来检查新字段的分布情况。在“直方图”节点对话框中, 将 Na_to_K指定为要绘制的字段,并将药物指定为交叠字段。
SPSS Modeler C5.0学习笔记_第11张图片
SPSS Modeler C5.0学习笔记_第12张图片

SPSS Modeler C5.0学习笔记_第13张图片

(4)创建网络图
作为分类型变量的有性别、BP、胆固醇,网络图可以反映不同类别之间的关系
SPSS Modeler C5.0学习笔记_第14张图片

3、选择C5.0模型节点
在派生节点后添加类型节点(如果省略了添加类型节点直接连接C5.0,会报错),读取Na_to_K字段的值,并指定Na和K字段角色为无;
在类型节点后添加C5.0模型,运行
SPSS Modeler C5.0学习笔记_第15张图片

4、结果分析与评估
SPSS Modeler C5.0学习笔记_第16张图片

补充

“模型"选项卡
● 使用分区数据∶如果使用了分区节点或预定义了分区字段,选择此项就将使用训练集进行模型训练、测试集进行模型评估。
● 为每个分割构建模型∶如果在类型节点中把某字段的角色设置为"拆分”(定义了分割字段),则模型将为该字段下的每个分割单独构建一个模型。输出类型∶设定结果的生成方式,输出类型包括"决策树"及"规则集"。选择"决策树",将利用C5.0算法进行模型构建,并输出"树状结果"。选择"规则集",将利用另一种名为PRISM的生成规则集算法进行模型构建,并输出"规则分类结果"。
● 组符号∶选中此项,C5.0 算法将尝试对分组变量的相似类别进行合并。以血压BP为例,如果算法认为血压="高"和血压="正常"两个类别类似,就会将这两个类别合并,最终输出2个分割。相反,如果没有选中此项,因为血压共有3个类别,则C5.0将直接生成3个分割。
● 使用 Boosting∶选择此项,节点将使用模型组装技术Boosting来生成多棵决策树,并通过组合投票的方式得出最后结果,一般情况下,该选项将提高模型的准确率,关于Bosting技术可以参考第15章集成学习算法。交叉验证∶选择此项,将用交叉验证的方式对模型进行评估。

模式∶"C5.0"节点提供了"简单"模式及"专家"模式,用于模型构建。

"简单"模式。
■支持∶选择决策树的生成模式,包括准确性和普遍性。选择准确性,将生成一个更详尽而精确的模型,不过也可能带来过拟合的问题。选择普遍性,将生成一个更精简及更具普遍适应性的模型,不过该模型在训练集的精度可能会有适当下降。
■ 预期噪声∶指定训练集中噪声样本的数量。

"专家"模式。
■修剪严重性∶具体指定决策树的修剪程度。该值就是悲观误差估计方法的置信度,默认的置信度为75%(1-25%)。该值越大,得到的决策树越精简。
■ 每个子分支的最小记录数∶预剪枝策略。只有当子树的记录数量均大于此值时,才会发生分裂。此项有助于防止过拟合问题的出现。使用全局修剪∶C5.0 的剪枝分为两个阶段,即局部剪枝和全局剪枝。节点默认执行全局剪枝。
■ 辨别属性∶节点将在使用算法前先进行自变量的有效性评估。若某变量在建模前发现与因变量关系不大,节点将剔除该字段进入建模。

SPSS Modeler C5.0学习笔记_第17张图片

你可能感兴趣的:(SPSS,决策树,机器学习,spss)