SPSS Modeler 数据审核学习笔记

  • 学习资料

IBM SPSS Modeler 18.0 Applications 第7章

  • 应用场景

初始数据探究过程前,需要使用数据审核报告显示统计以及每个数据字段的信息

  • 数据源描述

数据源名称telco.sav
SPSS Modeler 数据审核学习笔记_第1张图片

  • 应用模型

数据审核节点

  • 设计步骤

1、选取源节点“Statistics文件”,读取外部数据源;
Variable names选择Read names and labels
Values选择Read data and labels

2、将一个类型节点附加到源节点, 将churn 字段的Measure测量级别设置为flag标志,并将角色设置为Target目标。将所有其他字段的角色设置为 Input,并确认定义字段的Measure测量级别,例如数值为0和1的字段可以设置为标志,性别等仅包含两个值的字段设置为名义字段
SPSS Modeler 数据审核学习笔记_第2张图片

3、将“数据审核”节点附加到流。
在“设置”选项卡上,保留默认设置以便在报告中包含所有字段。由于churn是类型节点中定义的唯一目标字段,系统会自动将其用作交叠字段。
在“质量”选项卡上,保留检测缺失值、离群值和极值的所有默认设置。
最后点击运行
SPSS Modeler 数据审核学习笔记_第3张图片
SPSS Modeler 数据审核学习笔记_第4张图片
4、浏览统计量和图表

通过数据审核的浏览器显示,可以查看每个字段的图表、基本统计量、高级统计量,还可以通过工具栏或“编辑”菜单选择要显示的统计量
基本统计量包括:最小值、最大值、平均值、标准差、偏度、唯一值及有效值。其中,唯一值为分类变量中的分类数量(性别有男和女值则唯一值为2),有效值则为非空的记录数量。
高级统计量包括:合计、范围(极差)、平均值的标准差、偏度系数标准差、峰度、峰度系数标准差

SPSS Modeler 数据审核学习笔记_第5张图片

  • 平均值的标准差:以平均值为中心,超过3个标准差范围以外的记录定义为离群值,超个5个标准差范围以外的记录定义为极值
  • 峰度:反映数据分布的平坦度,常用于判断数据正态性的情况;数据服从正态分布的时候峰度系数等于0; 大于0时,数据分布相比于正态分布更加陡峭或尾部更厚。小于0时,数据分布相比于正态分布更加平缓或尾部更薄
  • 偏度:反映数据分布对称程度,常用于判断数据正态性的情况;数据服从正态分布的时候偏度系数等于0;大于0时,高峰在左长尾在右;小于0时,高峰在右长尾在左;
    当偏度系数或峰度系数与标准误差的比率小于-2或者大于2时,则可以认为数据不服从正态分布。

SPSS Modeler 数据审核学习笔记_第6张图片
5、处理离群值和缺失值
审核报告中质量选项卡显示有关离群值、极值和缺失值的信息,可以指定处理缺失值的方法,方法列这里选择算法,然后菜单栏点击生成-缺失值超节点,生成的超节点(五角星)将添加到流中。
SPSS Modeler 数据审核学习笔记_第7张图片
SPSS Modeler 数据审核学习笔记_第8张图片
SPSS Modeler 数据审核学习笔记_第9张图片
双击生成的超节点,可以点击放大,从而进一步对超节点里面包含的节点进行编辑和设置:对于需要使用算法插补的每个变量,将有一个独立的 C&RT 模型来进行预测填补缺失值
SPSS Modeler 数据审核学习笔记_第10张图片

- 补充

空值/空字符串和空白/空白值 的定义

  • 空值∶在数据文件中留空或在 SPSS Modeler 中使用"undef定义为空值的值将在SPSS Modeler中被识别为空值,对于空值,SPSS Modeler 将显示为 n u l l null null
  • 空字符串和空白∶空字符串值和空白(带有不可见字符的字符串)将被单独识别为一类,而不被视为空值。对于大多数用途,空字符串都视为相当于空白。对于空字符串和空白,SPSS Modeler将显示一个空白单元格。
  • 空白值∶在源节点或类型节点中,被专门定义为缺失的值,例如Age年龄存在负数的情况,这在现实中是不存在的,所以定义为缺失值也叫空白值,并标记为-1。对于空白值,SPSS Modeler将显示原值。
    SPSS Modeler 数据审核学习笔记_第11张图片

1、空白值的处理

存在以下特殊情况:

  • 例如Age年龄存在负数的情况,这在现实中是不存在的,但是数据审核节点会认为负数值也是有效值,不存在缺失。
  • 例如Height身高存在3米等离群值和极值的情况,这在现实中是不存在的,但是数据审核节点会认为也是有效值,不存在缺失。

为了避免以上特殊情况,可以在对输入数据进行数据审核之前,在类型节点进行缺失值的定义和检查设置,然后再进行插补处理。

(1)选中需要检查的字段,点击检查列的下三角按钮,选择警告,具体每种操作的含义如下

  • 无∶默认操作,即不对字段的值进行检查。
  • 无效∶将超出限制的值更改为系统空值( n u l l null null)。
  • 强制∶若字段已实例化,将在该字段中把超过限制的值更改为符合该字段测量级别的合法值。不同测量级别的转换有以下3种。标志∶将真值和假值以外的值转换为假值。集合∶将未知值转换为集合值的第一个成员。数值∶大于定义域范围上限的值将转换为最大值,小于定义域范围下限的值将转换为最小值,空值将转换为范围的中间值,即(最大值+最小值)/2。
  • 丢弃∶如果在检查中发现非法值,将丢弃该记录。
  • 警告∶如果在检查中发现非法值,将在右下角"流消息"对话框中显示告警消息。
  • 中止∶如果在检查中发现非法值,将中止运行,并提示错误。
    SPSS Modeler 数据审核学习笔记_第12张图片

(2)点击缺失列的下三角按钮,选择指定,具体每种操作的含义如下

  • 开(*)∶指示已为该字段进行缺失值处理。
  • 关∶指示没有为该字段进行缺失值处理。
  • 指定∶选择"指定",将弹出操作对话框,为字段进行针对性的缺失值指定处理。在弹出的指定菜单中可以对字段"Age"进行进一步处理,包括以下
  • "值"选项∶用户可以定义该字段值的有效范围。
  • “检查值"选项∶可以在此处指定检查操作,同样选择"警告”。
  • "定义空白"选项∶与"值"选项定义有效范围不同,"定义空白"选项是定义空白值的识别,可以在此处定义-1.0为空白值。
    SPSS Modeler 数据审核学习笔记_第13张图片
    SPSS Modeler 数据审核学习笔记_第14张图片

(3)空白值的处理

对于空白值,一般可以使用缺失值插补的方法填充;
在数据审核结果中的"质量分析报告”的缺失插补列选择对空白值进行插补,方法列选择插补的方法:

  • 固定∶把缺失值替换为固定值,固定值可以是字段的平均值、中程数值(数据范围,即最大值和最小值的中间值,不是中位数)以及任何用户指定的常量。
  • 随机∶把缺失值替换为该变量对应正态分布或均匀分布产生的随机值。
  • 表达式∶把缺失值替换为用户指定表达式的值。
  • 算法∶选择算法进行插补,SPSS Modeler将为每个变量构建一个单独的C&RT模型,对缺失值进行预测插补。

SPSS Modeler 数据审核学习笔记_第15张图片
SPSS Modeler 数据审核学习笔记_第16张图片
SPSS Modeler 数据审核学习笔记_第17张图片
SPSS Modeler 数据审核学习笔记_第18张图片

2、空字符串的处理

在SPSS Modeler 中,对于存在空字符串的缺失,一般把缺失值筛选出来进行丢弃或填充;

(1)丢弃
在数据审核结果中的"质量分析报告”,选中要处理的字段,单击菜单中的生成 - 缺失值选择节点
条件输入:@NULL(字段名) or to_string(字段名) == “” or iswhitespace(字段名) or @BLANK(字段名)
SPSS Modeler 数据审核学习笔记_第19张图片
SPSS Modeler 数据审核学习笔记_第20张图片
SPSS Modeler 数据审核学习笔记_第21张图片

(2)填充
在数据审核结果中的"质量分析报告”的缺失插补列选择对条件/指定进行插补,条件输入:to_string(字段名) == “” or @BLANK(字段名),然后方法列选择插补的方法,最后菜单栏点击生成-缺失值超节点。
SPSS Modeler 数据审核学习笔记_第22张图片

SPSS Modeler 数据审核学习笔记_第23张图片
SPSS Modeler 数据审核学习笔记_第24张图片

你可能感兴趣的:(SPSS,spss,机器学习)