SPSS Modeler数据挖掘学习_部分笔记

数据挖掘是一个过程,是一个以数据为中心的循序渐进的螺旋式数据探索过程。
![上图指出,数据挖掘时一个以数据为核心多个环节紧密相连,循环反复且循序渐进的数据探索过程](https://img-blog.csdnimg.cn/20190404202741100.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjAzMDU3Nw==,size_16,color_FFFFFF,t_70)

一、数据挖掘方法论的各环节:
1.业务理解
2.数据理解
SPSS Modeler数据挖掘学习_部分笔记_第1张图片
3.数据准备
4.建立模型
5.方案评估
6.方案实施
二、数据挖掘的任务和应用:
1.数据总结
2.分类和回归
3.聚类分析
4.关联分析

三、数据挖掘得到的只是形式:
1.浓缩数据
2.树形图
3.规则
4.数学模型

四、数据挖掘算法的分类:
1.根据算法分析数据的方式划分
2.根据算法来自的学科划分
3.根据算法所得结果的类型划分
4.根据学习过程的类型划分

首先来了解一下Modeler的数据集成:
一、从数据挖掘角度看变量类型:
连续数值型:表示年龄、家庭人口数等。
二分类型,简称分类型:表示性别等。
多分类型,也称名义型:表示职业、籍贯等。
定序型,也称有序型:表示受教育程度、收入水平等。
无类型:学号等编号变量或长文字等复杂数据变量,往往是无类型变量。无类型变量通常不参与数据建模。
离散型。
缺省型:缺省型是一种尚未明确的变量类型。
对于仅指定了变量名而尚未读入变量值的变量,Modeler无法确定其具体类型,默认为缺省型。Modeler称这样的变量处于非实例化状态。

二、从计算机存储角度看变量类型
整数型:用来存储整数
实数型:用来存储小数
字符串型:用来存储字符串数据
时间型:用来存储持续时间数据
日期型:用来存储日期数据
时间戳型:用来存储时间点数据

SPSS Modeler数据挖掘学习_部分笔记_第2张图片
第一步:首先从源选项卡选择读入数据的类型
第二步:通过记录选项、字段选项对导入的数据进行数据进行清洗和数据变换
第三步:从建模中选择需要用到的模型
第四步:通过导出选项卡里的内容对结果进行展示

SPSS Modeler数据挖掘学习_部分笔记_第3张图片
SPSS Modeler提供数据集成选项图标如下图所示:
合并为横向合并,追加为纵向合并
数据清洗:
1.离群点和极端值的调整:
具体步骤:
a、选中某个变量行
b、下拉相应行的【操作】框选择调整方法
Modeler提供了以下离群点和极端值的调整方法:
强制:表示离群点或极端值调整为距它们最近的正常值。
丢弃:表示剔除离群点和极端值。
无效:表适用系统缺失值 n u l l null null替代离群点或极端值。
强制替换离群值/丢弃极值:表示按照强制方法修正离群点,并剔除极端值。
强制替换离群值/使极值无效:表示按照强制方法修正离群点,并将极端值调整为系统缺失值 n u l l null null
c、选中需要调整的变量行,选择窗口菜单菜单【生成】下的【离群值和极值超节点】。

2、缺失值的调整:
	Modeler对缺失值的修正方法具体步骤是:
		a、选中某个变量行。
		b、下拉相应行的【缺失插补】框选择调整对象。
			【缺失插补】重新指定调整对象:
				空值:表示将对空做调整。
				无效值:表示将对系统缺失值$null$做调整。
				空值与无效值:表示将对空和系统缺失值做调整。
				条件:表示将对满足指定条件的变量值做调整。

在【插补时间】中选择【条件】,并在【条件】框中输入一个CLEM条件表达式,然后在【插补方法】中选择调整方法,包括:
	*固定:为默认值,表示调整为某个固定值。如果选择固定方法,还应在【固定值插补】框的【已固定为】下拉框中选择固定值,可以是均值、中间值、或一个指定的常数。
	*随机:表示调整为一个服从正态分布或均匀分布的随机值。Modeler将给出相应变量的正态分布参数和均匀分布参数。
	*算法:表示调整为模型的预测结果。Modeler只给出了分类回归树模型。
		
		c、选中需要调整的变量行,选择窗口菜单【生成】下的【缺失值超节点】项。
			【缺失值超节点】项表示,Modeler将自动生成一个包含若干个必要节点的超节点,用于根据用户指定的方法进行相应调整。

习惯把学习笔记放在移动硬盘里,结果前一阵硬盘坏了,以后会试着把自己觉得有用的东西慢慢放入博客里,如果有什么不足希望各位看客不吝赐教。
参考书籍《基于SPSS Modeler的数据挖掘_数据分析》

你可能感兴趣的:(SPSS,Modeler数据分析)