基于SPSS的中国消费者信心指数影响因素分析-----相关性分析

说明:本案例基于spss数据分析与挖掘实战案例精粹----第10章

案例背景:对受访者的背景资料对消费者信心指数的影响加以研究,并进一步考察其内部的详细作用方式;

分析方法:使用方差分析对自变量进行筛选,然后建议多元回归方差,进一步考察变量的影响,在此基础上,有利用最优尺度回归深入探讨自变量可能的各种复杂作用趋势,并利用多水平模型深入分析了信心指数变异在时间水平上的情况;

消费信心指数计算主要变量:

1、与一年前相比,您的家庭现在的经济状况怎么样?

2、与现在相比,一年后您的家庭经济状况将会如何变化?

3、与现在相比,您认为1年以后本地区的经济发展状况将会如何?

4、与现在相比,您认为5年后本地区的经济将会出现怎样的变化?

5、对于大宗耐用消费品的购买,比如家用电器,电脑以及高档家具,您认为当前是购买的好时机吗?

分析思路与商业理解:

1、考虑建立一个标准的一般线性模型(因变量暂无),由于候选因变量较多,因此拟合方差分析模型是比较常见的做法:

2、由于信心指数会随着时间而发生变化,因此也要考虑时间的影响,(个人认为时间或许有一定的相关关系,但是没有因果关系),其次不同的地域也会有影响;

3、信心指数的研究比较特殊,一般而言,在对多道题目进行信息汇总时,最佳的方式是进行主成分提取,但信心指数的计算方式是固定的相加算式;

4、分目标中需要考虑各影响因素的作用能否细分至5个分项指标,可以首先利用总信心指数的模型筛选出影响因素。然后将各题目作为因变量,建立相应的分析模型;可能存在某个因素对分项指标有影响,但是对总指标没有影响的情况,但是本案例并不考虑;

数据探索:

1)考察时间,地域对信心指数的影响;

“图形”----“构建图形程序”;选择“直方图”并拖入画布;将变量“index1”放入横坐标;在“元素属性”的对话框中选择“显示正态曲线”---应用;切换至“组/点ID”----“行嵌板变量”;将“s0”拖入“嵌板”中;“选项”---“换行嵌板”;

“图形”----“构建图形程序”;选择“多重线图”---“time”横坐标,“index1”纵坐标,“城市s0”“颜色”;双击“颜色”----分组区域改为“图案”,确定;在绘制的图形中,双击图形进行编辑,更改y轴刻度值

基于SPSS的中国消费者信心指数影响因素分析-----相关性分析_第1张图片基于SPSS的中国消费者信心指数影响因素分析-----相关性分析_第2张图片

从分布图来看,均成正态分布,且分布无明显差异;3个地区的信心指数变化规律不一,广州相对而言变化比较平缓,上海则跌涨幅最大;2008年以前,三地去信心指数差异较大,但2009年年末,指数差异缩小,城市与月份可能存在交互作用,后续建模分析中应加以注意;

2)考察性别,职业,婚姻状况等对信心指数的影响;

建立条形图;图表完成后对图形进行编辑(选中类别分类轴,“类别”---“排序依据”---“统计”--“降序”)

基于SPSS的中国消费者信心指数影响因素分析-----相关性分析_第3张图片基于SPSS的中国消费者信心指数影响因素分析-----相关性分析_第4张图片

基于SPSS的中国消费者信心指数影响因素分析-----相关性分析_第5张图片 基于SPSS的中国消费者信心指数影响因素分析-----相关性分析_第6张图片

 基于SPSS的中国消费者信心指数影响因素分析-----相关性分析_第7张图片

根据图表可看出:信心指数在男女之间无明显差异;在大专,本科学历范围时平均水平达到更高;未婚人群信心指数最高;家庭月收入在2000以下时,信心指数随收入的上升而上升,随后保持稳定

3)考察年龄对信心指数的影响;

简单散点图---S3横坐标,index1纵坐标---确定;

编辑图形----元素----总计拟合线----Loess---应用

基于SPSS的中国消费者信心指数影响因素分析-----相关性分析_第8张图片结论:1)随着年龄的上升,信心指数有下降的趋势;线性模型也呈现这样的趋势;2)存在信心指数异常点(0),可以回影响建模质量;

标准GLM框架下的建模分析:

“分析”----“一般线性模型”----“单变量”;

“因变量”----“index1”;“固定因子”----“time”,“城市s0”,“性别S2”,“学历S4”,“职业S5”,“婚姻状况S7”,“家庭月收入S9”;“协变量”----“年龄S3”;"模型“-----将各因子的主效应选入模型框;“保存”----“未标准化的预测值”,“标准化残差”;“选项”----“缺乏拟合优度检验”;确定

基于SPSS的中国消费者信心指数影响因素分析-----相关性分析_第9张图片

 主要查看sig项,看变量是否存在统计学意义;

基于SPSS的中国消费者信心指数影响因素分析-----相关性分析_第10张图片

上表检验的是当前模型用于拟合样本数据是否具有足够的拟合优度或者说与纳入的全部主效应和交互效应的模型(全模型)相比当前模型对样本信息的解释程度是否充分,两者的差异是否具有统计学意义;若有差异,则意味着还有交互项需要纳入; 

在一般线性模型中加入两两比较:

在前面的基础上:“选项”----“time,s0,s4”等----“显示均值”----选中“比较主效应”---置信区间选选择“Bonferroni”

基于SPSS的中国消费者信心指数影响因素分析-----相关性分析_第11张图片

 上图的两个表中:第一个表,检验统一分类变量的不同属性之间是否存在显著差异;第二表,检验的是这一分类变量对因变量(信心指数)是否有有影响(0.025);

多元方差分析模型的结果:

目的与问题:1)信心指数是由5个分项指标构成的,可以考虑将5个指标作为因变量进行考察?2)5个变量之间存在关联,那么将5个指标作为因变量进行建模分析,那么相应的变量筛选结果会有差异吗?

多元方差分析回答问题:1)自变量的变化是否对因变量有显着影响?2)因变量之间的关系是什么?3)自变量之间有什么关系?

使用条件:1)各因变量服从多元正态分布(可以降低为每个反应变量服从正态分布---多元正态分布的必要条件)2)相互独立,且各组观察对象反应变量的方差协方差矩阵相等;

拟合优度检验:卡方统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到从分类变量进行分析的目的。

spss操作:分析----一般线性模型----多变量;将5个指标放入“因变量";将”月份,城市,职业,家庭月收入“选入”固定因子";将“年龄"放入”协变量";“模型”----“将各因素的主效应选入模型对话框”;“选项”----“缺乏拟合优度检验”;“确定”;

部分结果如下:

基于SPSS的中国消费者信心指数影响因素分析-----相关性分析_第12张图片

 两两比较:在前面操作基础上------“选项”-----将“time,s0,s5,s9”选入“显示均值”----选中“比较主效应”----“置信区间调节----Bonferroini”

最优尺度回归:统计建模时对分类变量进行量化的问题;

操作步骤:分析----回归----最佳尺度;“因变量”----“index1”;“定义变量”----“数字”;将其他自变量选入“自变量框”---“定义度量”----“名义”;“离散化”---所有变量“秩”;“缺失”----所有变量“为缺失值归因(附加类别)”;“绘制”---所有变量“转换图”;--确定

基于SPSS的中国消费者信心指数影响因素分析-----相关性分析_第13张图片

相关分析(Correlations):自变量对因变量的相关性分析,

影响重要性:自变量在模型中的重要性百分比,负数说明重要性很低;

容差:该变量对因变量的影响中不能被其他自变量所解释的比例,容差越大越好;

总结:什么时候选择简单模型,什么时候选择复杂模型?

1、当对数据不清楚时,尽量采用简单的模型,快速、清晰的抓住数据间的主要关联

2、如果已知模型在方法学上有某些缺陷,从而担心相应的问题可能影响分析结果,可以在已有结果的基础上,采用其他方法进行探索;

3、随着分析的深入,可能出现所使用的简单模型无法满足的分析需求,在此基础上构建较为复杂的模型

你可能感兴趣的:(数据分析,spss,数据分析)