3.SPSS Modeler数据基本分析笔记

3.1数据基本分析(实验)

任务介绍:

  本小节实训我们要练习SPSS Modeler当中的数据基本分析部分。
  Modeler数据基本分析包括5大块内容:

1.数据质量分析

2.描述性统计分析

3.探索性分析

4.二分类变量相关性分析

5.变量的重要性分析

学习相关知识

1. 数据质量探索

  • 数据挖掘的首要任务是对数据质量进行考察。对数据质量的考察可通过“输出”选项卡中的数据审核节点实现。数据审核节点还可以计算变量的基本统计量并绘制相应的柱形图和直方图等。
  1. 审核数据--【审核选项卡】【质量选项卡】

  2. 数据离群值和极值的修正

    3.SPSS Modeler数据基本分析笔记_第1张图片

  3. 数据缺失值的插补

    3.SPSS Modeler数据基本分析笔记_第2张图片

  4. 数据审核节点的其他功能

    3.SPSS Modeler数据基本分析笔记_第3张图片

2. 基本描述分析

  • 对数值型变量,应计算基本描述统计量,以准确把握变量的集中趋势和离散程度。

可以用“数据审核”节点,也可以用“statistics”节点

3. 探索性分析

  • 统计建模常常要求变量服从正态分布,如果变量不服从正态分布,应对变量进行适当的转换处理。SPSS Modeler提供了直观的图形方式用于变量的转换,大大缩短了变量分布探索的时间。

  • 对各种费用变量应做怎样的转换才能使其接近正态分布?

  • 选择【输出】选项卡中的【变换节点】,并将其连接到数据流的恰当位置上,在该节点处单击鼠标右键,选择快捷菜单中的“编辑”选项,进行参数设置,如下图所示:

    3.SPSS Modeler数据基本分析笔记_第4张图片

4. 二分类变量相关分析

  • 对二分类型相关性进行研究具有重要意义。
  • 二分类型相关性研究可以从图形分析入手,然后采用数值方法进行分析。

1.二分类型相关性的图形分析

(1)条形图

  • 选择“图形”选项卡中的分布节点,并将其连接到数据流的恰当位置上,在分布节点处单击鼠标右键,选择快捷菜单中的“编辑”选项,进行参数设置。

(2)网状图

  • 网状图是一种能更生动和直观地展示两个或多个分类型变量(尤其适合多个分类型变量)相关性特征的图形。
  • 选择“图形”选项卡中的网络节点,并将其连接到数据流的恰当位置上,在网络节点处单击鼠标右键,选择快捷菜单中的“编辑”选项,进行参数设置。

2.二分类型相关性的数值分析

用“矩阵”节点,做出交叉表

  • 图形分析并不能准确反映二分类型之间精确的相关程度,因此进行数值分析是必要的。数值分析通常采用的方法是列联分析。
  • 列联分析包括两个步骤:第一步,计算二分类型的列联表;第二步,分析列联表中行、列变量之间的相关性。

结论的分析主要看卡方、自由度和概率,假设列变量和行变量之间独立,如果概率<0.05,则满足拒绝域,说明列变量和行变量不独立,可能相关。

5. 变量的重要性分析

  • 通常,数据挖掘中的数据量非常庞大,因此浓缩和提炼数据就显得极为必要。

衡量方法:使用“特征选择”节点,一定要在使用前用“类型”节点编辑好字段角色,选定目标变量。

  • 输入变量为数值型变量,目标变量为数值型变量
  • 输入变量为数值型变量,目标变量为分类型变量
  • 输入变量为分类型变量,目标变量为分类型变量
  • 输入变量为分类型变量,目标变量为数值型变量

实操

3.1.1数据质量分析

实操数据:

  案例选取一份虚拟的电信客户数据,数据文件储存在可供下载的数据文件中,文件名为“电信客户数据.sav”,其中包含15个字段1000条记录,变量名如下

3.SPSS Modeler数据基本分析笔记_第5张图片


数据展示如下图所示:
电信客户数据

本节任务流程:

  • 请将这份数据文件读入到SPSS Modeler中,利用这份数据,进行Modeler的数据质量分析。

参考答案:

读入.sav文件,选择‘statistics’节点,选择文件路径,读入值

3.1.2描述性统计分析

实操数据:

  案例选取一份虚拟的电信客户数据,数据文件储存在可供下载的数据文件中,文件名为“电信客户数据.sav”,其中包含15个字段1000条记录,变量名如下

3.SPSS Modeler数据基本分析笔记_第6张图片


数据展示如下图所示:
电信客户数据

本节任务流程:

1.请将这份数据文件读入到SPSS Modeler中,利用这份数据,进行Modeler的数据描述性统计分析。

2.计算开通月数、基本费用、免费部分、无线费用的基本描述统计量。

3.计算上述变量与年龄、收入、家庭人数之间的简单相关系数,以反映变量之间的相关性。

4.分析解释得到的结果。

参考思路:

描述性分析:输出“数据审核”节点

基本描述统计量:用“statistics”节点,检查框里选择开通月数、基本费用、免费部分、无线费用字段,只计算基本描述统计量,点击运行

3.SPSS Modeler数据基本分析笔记_第7张图片

 相关系数和相关性:用“statistics”节点——连续性变量的卡方分析

检查框里选择开通月数、基本费用、免费部分、无线费用字段,相关框里选择年龄、收入、家庭人数,相关设置选择按重要性定义相关强度,运行查看结果

3.SPSS Modeler数据基本分析笔记_第8张图片

3.1.3探索性分析

实操数据:

  案例仍是选取虚拟的电信客户数据,数据文件储存在可供下载的数据文件中,文件名为“电信客户数据.sav”,其中包含15个字段1000条记录,变量名如下

3.SPSS Modeler数据基本分析笔记_第9张图片


数据展示如下图所示:
电信客户数据

本节任务流程:

1.请将这份数据文件读入到SPSS Modeler中,利用这份数据,进行Modeler的数据探索性分析。

2.分析解释得到的结果。

参考思路:

探索性分析可通过前面“数据审核”节点输出的各个字段分布图像

3.1.4二分类变量相关性分析

实操数据:

  案例仍是选取虚拟的电信客户数据,数据文件储存在可供下载的数据文件中,文件名为“电信客户数据.sav”,其中包含15个字段1000条记录,变量名如下

3.SPSS Modeler数据基本分析笔记_第10张图片


数据展示如下图所示:
电信客户数据

本节任务流程:

1.请将这份数据文件读入到SPSS Modeler中,利用这份数据,分析套餐类型的分布特征,以及流失客户在不同套餐类型上的分布。

2.基于电信客户数据,分析客户流失与套餐类型、婚姻状况、电子支付等是否相关。

参考思路:

可以通过图形分析:

1.条形图分析——看占比

3.SPSS Modeler数据基本分析笔记_第11张图片

 

2.网络图分析——分析两个分类变量之间的关系强弱性

3.SPSS Modeler数据基本分析笔记_第12张图片

 

3.导向网络图分析——分析一个分类变量与多个变量之间的关系强弱性

可以通过计算分析——用“矩阵”节点——卡方分析

计算交叉列表——查看卡方、自由度和概率

可见

3.SPSS Modeler数据基本分析笔记_第13张图片

 3.SPSS Modeler数据基本分析笔记_第14张图片

卡方为33.014

自由度为3

概率为0

前提假设列列变量与行变量独立,但是结果概率为0<0.05,说明为小概率事件,服从拒绝域,从而说明假设不成立,列变量套餐类型和行变量客户流失可能相关。 

3.1.5变量的重要性分析

实操数据:

  案例仍是选取虚拟的电信客户数据,数据文件储存在可供下载的数据文件中,文件名为“电信客户数据.sav”,其中包含15个字段1000条记录,变量名如下

3.SPSS Modeler数据基本分析笔记_第15张图片


数据展示如下图所示:
电信客户数据

本节任务流程:

  • 给出输入变量对目标变量重要性的排序。

参考思路:

1.在“类型”节点中将目标变量的角色设置为“目标”。这里将流失角色设置为目标。

2.在建模选项卡中选择“特征选择”节点,连接“类型”节点,选择目标字段和输入字段。目标字段为流失,输入为其他全部字段。

3.调整模型和选项中的参数,运行输出

3.SPSS Modeler数据基本分析笔记_第16张图片

 

你可能感兴趣的:(SPSSModeler数据分析,数据分析,数据挖掘,big,data)