关于spss的一点常识

数据清洗

删除重复

数据-标记重复个案-把需要参考的都拖入右边定义-生成0代表重复,1代表不重复-在01这一列右键升序-删除0


数据抽取

字段拆分(例如身份证号提取生日)

转换-计算变量-函数选择字符串-函数选择Substr(3)-更改参数substr(字符串(身份证),从第几个开始提取,提取几个)-目标变量改名字-类型改为字符串

随机抽样

数据-选择个案-随机个案样本-大约&(可选择把选定个案复制到新数据集)

数据合并

年月日字段合并

转换-计算变量-字符串-函数选择Concat(年份,”-“,月份,”-”日)必须英文标点-字符串宽度为10

若想进行计算,可在变量视图中将数据类型改为日期型yyyy/mm/dd

记录合并

将两个表中的数据合并,不用复制粘贴

打开一个表-数据-合并文件-添加个案-从外部选

数据分组

可视分箱(数据分段)

转换-可视化分箱-将要分的数据拖到右边-填写分箱化变量-生成分割点-生成标签

逆推的话,则采用 转换-重新编码为不同变量-旧值和新值

数据标准化

0-1标准化

转换-计算变量-目标变量写标准化值-公式(x-min)(max-min)-目标变量数值

Z标准化

分析-描述统计-描述-变量拖动

描述性分析

频率分析

分析-描述统计-频率-(Q几可以右键显示)-拖入

百分比:每类别有效值和缺省值所占总体比例

有效百分比:有效值所占

累计百分比:从第一个类别依次累加

连续变量频率

分析-描述统计-频率-拖入-statistics-四位分数平均值百分点离散程度等选选选-图表选择

条形图:数据分布,长度表示频数

直方图:连续数据,面积表示频数

饼图:数据结构

交叉表分析

分析-描述统计-交叉表-行列以此拖入-单元格

多选题定义

分析-表-多重定制-选择要弄得题目拖-二分法(计数值1)或类别-添加-更改集合名(Q几)和集合标签(Q几.名称)

报表

分析-定职表-同时选中左侧要选的-拖入行or列-摘要统计加权数

自定义分组

分析-定制表-拖入-分类和总计-选中起止点的标签-添加小计


相关分析

皮尔逊相关系数r反映连续变量之间线性相关强度的度量指标 【-1,1】为0则线性无关,绝对值小于0.3低度相关,高于0.8高度相关。正负号表示正or负相关

回归分析

简单线性回归

步骤:1.确定自变量和因变量

2.绘制散点图,看r:

图形-旧对话框-散点图-简单散点-将需要比较的变量拖入xy轴分析-相关-双变量-依次

入,选择皮尔逊-输出表格看r的大小确立相关度

3.估计模型参数,建立线性回归模型

分析-回归-线性,拖入自变因变-统计和选项一般保留默认值

4.对回归模型进行检验

输出了四个表:

1线性回归模型输入/除去表

2线性模型回归模型汇总表:R2越接近1,拟合效果越好

3线性回归方差分析表:一般看F和显著性P,P若大于0.05则不具有显著地统计学意义,0.01-0.05具有显著的统计学意义,若小于0.01极其显著

4.线性回归模型回归系数表:一般根据B里面的两个数可以列出Y=A+Bx的式子

5.利用回归模型进行预测:根据式子代入,可在保存中勾选预测值中的未标准化

多重线性回归(多个自变量)

步骤如上,图形-旧对话框-散点图-矩阵散点图-定义-拖入要比较的多个变量到矩阵变量


自动线性建模

连续变量,分类变量,均可作为自变量参与建模

自动建模

分析-回归-自动建模-预测变量中是可以编辑的,将明显不是自变量的移到“字段”中(例如日期,用户id)将因变量移到“目标”中-运行

结果解读

以图示为例,其中左侧图都可以双击查看

关于spss的一点常识_第1张图片

Logistic回归

因变量是分类变量的回归,对数变换,分类变量分为二分类(是or否)和多分类。二分类就是logistic回归,1和0 对应 是和否  概率中P>0.5 对应的是1

分析-回归-二元logistic-移动因变量和协变量-保存-勾选概率值

输出的表格重点关注

关于spss的一点常识_第2张图片

此表格中,未续约数是300 续约数是797  续约判断准确性73.1%

关于spss的一点常识_第3张图片

回归检验量为 瓦尔德(wald)显著性全部小于0.01 极显著

logit(P)=-2.287+0.014*营业收入+0.099*注册时长-0.184*成本

预测

在上述“保存”中-将模型信息导出到XML文件-再打开一个类似的新文件(因变量自变量相同)-实用程序-评分向导-找到保存的文件-勾选预测值


时间序列分析

用于预测的时间序列,假设事物发展延伸到未来,具有不规则性,不考虑因果关系

一般会把季节变动因素分解出去(因为季节变动会让预测模型变为不规则)

定义日期指示变量

即便是数据中有“日期”这个变量,也要重新定义指示变量

数据-定义日期和时间-左侧个案根据变量起止来决定,例如年份,月份-年份输入

序列发展趋势

分析-预测-序列图-移动变量-date作为时间轴标签

序列图中,季节波动大后续采用乘法模型(四种因素相互影响)Y=T(长期模型)*S(季节变动)*C(循环变动)*I(不规则变动)

季节波动小采用加法模型 Y=T+S+C+I

例如下图 波动大 采用乘法

关于spss的一点常识_第4张图片

季节因素分离

分析-预测-季节性(周期性)分解-变量移动,选择模型


探索性分析

从大量的数据中发现未知有价值信息(找高端客户)

RFM分析(Recency交易时间间隔  Frequency交易次数 Monetary交易金额)

根据客户活跃度和交易金额贡献细分的方法

数据格式:1交易数据:每次交易占用一行,关键变量为客户ID,交易日期和交易金额

                     2客户数据:每个客户占用一行,关键变量是客户ID,交易总金额,交易总次数和最                        近交易日期

直销-选择技术-帮助确定我的最佳联系人-交易数据-移动对应变量-输出可全部勾选-出现分析图

分析-描述统计-描述-将各种得分移动-转换-重新编码为不同变量-每次移动一个得分-

旧值和新值-从值到最高-框中输入平均值-右侧值中输入表示高的值-添加

旧值和新值-所有其他值-值中输入表示低的值-添加

数据-定义变量属性-找到之前改的分类拖入

聚类分析

让同一个类别的个体之间具有较高相似度,不同的则差别大

1.快速聚类分析(K均值聚类分析)

分析-分类-k平均值聚类-各种评定依据作为变量,个案选择每个人-共分为几组-保存勾选聚类成员

生成表后 分析-定制表(QCL移动到列 评判依据到行)

关于spss的一点常识_第5张图片
可自定义初始聚类中心,但仅限连续变量

2.系统聚类分析

分析-分类-系统聚类-评判依据移入变量

统计-可输入生成类别范围(例如3-4)


关于spss的一点常识_第6张图片

图-谱系图(即树状图)

方法-(默认组间连接 平方欧式距离)可勾选Z得分

保存-可勾选解的范围(如果之前勾选范围的话)

分析-描述统计-频率

分析-定制表(将CLU移动到列 评判依据到行)

关于spss的一点常识_第7张图片
支持个案或变量聚类,但不能同时处理两种类型变量

3.二阶聚类分析

分析-分类-两步聚类-评判依据为连续变量-性别学历等为分类变量-输出选择透视表和创建聚类成员变量

对比表格BCI变化量等三项依据,选择最大的,则为最佳类别数

双击最后一张图表,可模型查看器,按ctrl点击分类可以对比单元格分布


关于spss的一点常识_第8张图片
可自动选择最佳聚类数,综合考虑分类和连续变量,但建议个案数大于1000

因子分析

通过研究变量间的相关系数矩阵,把复杂关系归结成少数几个综合因子 降维

连续变量,各按个数为变量个数5倍以上,KMO在0.5以上(0.8以上极其适合)

分析-降维-因子分析-移动变量-描述(原始结果和KMO球状度)-抽取(默认以及碎石图)-旋转(最大方差法)-得分(保存为变量 回归)-选项(按大小排序,取消小系数,最后数值限定输出)

在分析时

关于spss的一点常识_第9张图片

提取的因子个数应该:下表第二列大于1(初始值) 第四列(累加)达到60,图上位置较陡

旋转载荷平方和(1,2,累加)

关于spss的一点常识_第10张图片

表中会呈现FAC1_1.FAC2_1.计算时,转换-计算变量-公式输入38.968/72.367*FAC1_1+33.399/72.367*FAC2_1  最后综合得分排序即可

对应分析

和图形有关,分类变量构成的交叉表

数据-加权个案-数值为频率变量

分析-降维-对应分析-移动

下表 同一变量类别距离越近,差异越小

不同类别距离越近,相关性越大

关于spss的一点常识_第11张图片

你可能感兴趣的:(关于spss的一点常识)