数据分析与挖掘———SPSS Moderler

数据分析与挖掘———SPSS Moderler

一、Modeler给概述

1、SPSS Modeler基本认识

IBM SPSS Modeler是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。
SPSS Modeler提供了各种借助机器学习人工智能统计学的建模方法。通过建模选项板中的方法,可以根据数据生成新的信息以及开发预测模型。

2、SPSS Modeler的特点

  1. 强大的数据读取功能
  2. 丰富的数据处理方法
  3. 图形化的数据探索方式
  4. 核心挖掘算法
  5. 简洁直观的模型评估
  6. 性能卓越的三层体系架构

二、数据读取与数据清洗

1、变量类型

数据挖掘角度

  1. 数值类型变量:连续性的数字(电话)
  2. 定类型变量:分类型 (性别)
  3. 定序型变量:等级次序的变量(职称)

数据储存角度

  1. 整数型
  2. 实数型
  3. 字符串型
  4. 时间型:时间段
  5. 日期型
  6. 时间戳型:时间点

数据分析与挖掘———SPSS Moderler_第1张图片

2、数据读取

txt文件

中把 变量文件拖拽出来,右键编辑引入文件修改编码
查看结果 ,在输出中拉出表格
连接(F2) ,运行 (Ctrl+E)
数据分析与挖掘———SPSS Moderler_第2张图片

数据分析与挖掘———SPSS Moderler_第3张图片

数据分析与挖掘———SPSS Moderler_第4张图片

数据分析与挖掘———SPSS Moderler_第5张图片

excel文件

数据分析与挖掘———SPSS Moderler_第6张图片

spss文件

数据分析与挖掘———SPSS Moderler_第7张图片

数据库文件

先建立数据源

管理面板管理工具ODBC数据源]
数据分析与挖掘———SPSS Moderler_第8张图片
数据分析与挖掘———SPSS Moderler_第9张图片
数据分析与挖掘———SPSS Moderler_第10张图片

数据分析与挖掘———SPSS Moderler_第11张图片

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zYm6YtHX-1664253911317)(:/a8b13e26931a4199b3cb7e7c73621787)]

数据分析与挖掘———SPSS Moderler_第12张图片

在spss modeler操作

选择
数据分析与挖掘———SPSS Moderler_第13张图片
数据分析与挖掘———SPSS Moderler_第14张图片
数据分析与挖掘———SPSS Moderler_第15张图片

3、数据清洗

缺失值分析及处理

step1:观察缺失值

数据分析与挖掘———SPSS Moderler_第16张图片
数据分析与挖掘———SPSS Moderler_第17张图片

step2:缺失值定义和缺失值处理(删除or插补)

通过对比发现是因为对于无效数据没有定义,所以导致系统没有排除出无效数据

缺失值的定义

1、先对数据通过 类型 进行实例化
数据分析与挖掘———SPSS Moderler_第18张图片
数据分析与挖掘———SPSS Moderler_第19张图片

2、对缺失值进行定义
数据分析与挖掘———SPSS Moderler_第20张图片数据分析与挖掘———SPSS Moderler_第21张图片在这里插入图片描述

3、利用 数据审核 进行输出观察
数据分析与挖掘———SPSS Moderler_第22张图片
数据分析与挖掘———SPSS Moderler_第23张图片数据分析与挖掘———SPSS Moderler_第24张图片

缺失值的处理

经过缺失值/异常值的处理使完整字段完整记录达到100%,那么处理完的数据才是完美的
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GyFRKZqt-1664253911321)(:/78186a7939194f5c97645a7151a687ff)]

方法一、 缺失值删除

将数据中的缺失值直接删除
数据审核节点–>选择生成缺失值过滤节点

方法二、缺失值插补

数据分析与挖掘———SPSS Moderler_第25张图片

将数据中的缺失值进行其他数据添补
运行数据审核节点–>对缺失插补进行操作–>编辑后确定–>生成缺失值超节点
数据分析与挖掘———SPSS Moderler_第26张图片数据分析与挖掘———SPSS Moderler_第27张图片在这里插入图片描述数据分析与挖掘———SPSS Moderler_第28张图片

数据分析与挖掘———SPSS Moderler_第29张图片
数据分析与挖掘———SPSS Moderler_第30张图片
数据分析与挖掘———SPSS Moderler_第31张图片
数据分析与挖掘———SPSS Moderler_第32张图片
数据分析与挖掘———SPSS Moderler_第33张图片

数据分析与挖掘———SPSS Moderler_第34张图片

最终得到:

数据分析与挖掘———SPSS Moderler_第35张图片

异常值分析及处理

异常值的定义

异常值是在数据集中与其他观察值有很大差距的数据点,它的存在,会对随后的计算结果产生不适当的影响,因此检测异常值并加以适当的处理是十分必要的。

异常值的类型
  • 单字段异常值
    某条或者多条字段的单个变量出现异常
  • 多字段异常值
    某条或者多条字段的多个变量出现异常
异常值处理

异常值处理的原理
数据分析与挖掘———SPSS Moderler_第36张图片

处理步骤:
数据审核节点–>质量操作–>生成
数据分析与挖掘———SPSS Moderler_第37张图片数据分析与挖掘———SPSS Moderler_第38张图片

数据分析与挖掘———SPSS Moderler_第39张图片
数据分析与挖掘———SPSS Moderler_第40张图片

重复值处理

数据分析与挖掘———SPSS Moderler_第41张图片数据分析与挖掘———SPSS Moderler_第42张图片

(这个最后的输出应该是表格而不是审核节点 )
数据分析与挖掘———SPSS Moderler_第43张图片数据分析与挖掘———SPSS Moderler_第44张图片

三、数据的基本分析

1、数据质量分析

就是进行数据清洗,将数据质量达到100%

2、描述性统计分析

数据分析与挖掘———SPSS Moderler_第45张图片
数据分析与挖掘———SPSS Moderler_第46张图片

数据分析与挖掘———SPSS Moderler_第47张图片

3、探索性分析

统计建模常常要求变量服从正态分布如果变量不服从正态分布,应对变量进行适当的转换处理。
SPSS Modeler提供了直观的图形方式用于变量的转换,大大缩短了变量分布探索的时间。

步骤:
输出的变换节点 读入数据选择 字段 运行 生成函数图像–>选择符合正态分布的函数图像–>生成超节点变换–>表格输出
数据分析与挖掘———SPSS Moderler_第48张图片数据分析与挖掘———SPSS Moderler_第49张图片数据分析与挖掘———SPSS Moderler_第50张图片
数据分析与挖掘———SPSS Moderler_第51张图片
数据分析与挖掘———SPSS Moderler_第52张图片数据分析与挖掘———SPSS Moderler_第53张图片
数据分析与挖掘———SPSS Moderler_第54张图片数据分析与挖掘———SPSS Moderler_第55张图片

4、二分类变量相关性分析

时间:01:37:26

数据分析与挖掘———SPSS Moderler_第56张图片

➢二分类型相关性研究可以从图形分析入手,也可以采用数值方法进行分析。

问 :
➢例如,基于电信客户数据,可分析客户流失与套餐类型、婚姻状况、电子支付等是否相关。

➢这里,基于电信客户数据,分析套餐类型的分布特征,以及流失客户在不同套餐类型上的分布

图形分析

分类图:数据分析与挖掘———SPSS Moderler_第57张图片数据分析与挖掘———SPSS Moderler_第58张图片数据分析与挖掘———SPSS Moderler_第59张图片
网络图:

数据分析与挖掘———SPSS Moderler_第60张图片
数据分析与挖掘———SPSS Moderler_第61张图片

列联分析

图形分析并不能准确反映二分类型之间精确的相关程度,因此进行数值分析
是必要的, 数值分析通常采用的方法是列联分析。

列联分析包括两个步骤:第一步,计算二分类型的列联表;第二步,分析列联表中行、列变量之间的.相关性。

问:
这里,对电信客户数据
进行数值分析,目标是.分析客户“流失”与“套餐类型”是否相关。
数据分析与挖掘———SPSS Moderler_第62张图片数据分析与挖掘———SPSS Moderler_第63张图片
数据分析与挖掘———SPSS Moderler_第64张图片

数据分析与挖掘———SPSS Moderler_第65张图片
数据分析与挖掘———SPSS Moderler_第66张图片

5、变量的重要性分析

时间:01:49:05

变量重要性概念:
◆从变量本身看,重要的输入变量应是携带信息较多的变量,也就是方差较大的变量。
◆从变量与目标变量的相关性角度看,重要变量应对目标变量的分类预测有显著意义。
数据分析与挖掘———SPSS Moderler_第67张图片
数据分析与挖掘———SPSS Moderler_第68张图片
数据分析与挖掘———SPSS Moderler_第69张图片

四、统计图

时间:01:51:42

1、逻辑回归分析

时间:01:53:02

逻辑回归概念

  • 逻辑回归分类:二项分类逻辑回归,多项分类逻辑回归。
  • 底层原理:假设因变量y服从伯努利分布,Sigmoid映射函数的引入。

逻辑回归算法流程

  • 收集数据
  • 准备数据
  • 分析数据
  • 训练算法
  • 测试算法
  • 使用算法

逻辑回归案例

问:

◆现有一份顾客购买意愿数据表,文件名为: [购买判断.sav]
◆现需从顾客信息数据中,寻找顾客购买意愿的影响因素并训练模型用来预测。
数据分析与挖掘———SPSS Moderler_第70张图片数据分析与挖掘———SPSS Moderler_第71张图片数据分析与挖掘———SPSS Moderler_第72张图片
在这里插入图片描述
数据分析与挖掘———SPSS Moderler_第73张图片
数据分析与挖掘———SPSS Moderler_第74张图片

2、关联分析

Apriori算法

时间:02:05:57

问:

  • 以超市会员顾客购物信息.txt为例(1000名顾客)
  • 存储格式:事实表
  • 个人信息:会员卡号、消费金额、支付方式、性别、是否户主、年龄、收入;
  • 一次购买商品的信息:果蔬、鲜肉、奶制品、蔬菜罐头、肉罐头、冷冻食品、啤酒、葡萄酒、软饮料、鱼、糖果。
  • 目标1:分析商品之间的关联性,为超市提供决策。
  • 目标2:在顾客已买商品的情况下预测可能性商品的连带购买

注意将食品项的角色分配为 任意
数据分析与挖掘———SPSS Moderler_第75张图片数据分析与挖掘———SPSS Moderler_第76张图片

数据分析与挖掘———SPSS Moderler_第77张图片

3、时间列序分析

时间序列概述

➢时间序列是指按时间顺序排列的一组数据序列,是-一个变量在一-定时间段内不同时间点 上观测值的集合。
➢根据观察时间的不同,时间序列中的时间间隔可以是年份、季度、月份、周、日或其他时间段。

时间序列分析

数据分析与挖掘———SPSS Moderler_第78张图片

时间序列分析
➢时间序列分析是一种根据时间序列揭示系统动态结构和规律的统计方法。
➢依据时间序列的特征,产生了与之相适用的方法。
➢时间序列分析的主要目的是根据已有的历史数据对未来进行预测。

案例

问:
●该数据是某公司2010-2019十年间服装销售情况(单位:万元)
●需求:根据过去10年的销售数据来预测其男装类的月度销售情况
●操作: 定义日期-指定目标-设置时间间隔创建模型-检查模型

填充 定义时间
数据分析与挖掘———SPSS Moderler_第79张图片数据分析与挖掘———SPSS Moderler_第80张图片
数据分析与挖掘———SPSS Moderler_第81张图片数据分析与挖掘———SPSS Moderler_第82张图片
数据分析与挖掘———SPSS Moderler_第83张图片
数据分析与挖掘———SPSS Moderler_第84张图片
数据分析与挖掘———SPSS Moderler_第85张图片
数据分析与挖掘———SPSS Moderler_第86张图片

数据分析与挖掘———SPSS Moderler_第87张图片

模型一、指数平滑法

数据分析与挖掘———SPSS Moderler_第88张图片数据分析与挖掘———SPSS Moderler_第89张图片数据分析与挖掘———SPSS Moderler_第90张图片

数据分析与挖掘———SPSS Moderler_第91张图片

模型二、专家建模器

数据分析与挖掘———SPSS Moderler_第92张图片
数据分析与挖掘———SPSS Moderler_第93张图片
在这里插入图片描述
数据分析与挖掘———SPSS Moderler_第94张图片数据分析与挖掘———SPSS Moderler_第95张图片
数据分析与挖掘———SPSS Moderler_第96张图片

使用专家建模器分析未来三个的数据

数据分析与挖掘———SPSS Moderler_第97张图片
数据分析与挖掘———SPSS Moderler_第98张图片

你可能感兴趣的:(大数据)