【多元统计分析】均值向量和协方差阵的检验——spss上机实验

均值向量和协方差阵的检验——spss上机实验

#参考书目为《多元统计分析》(第五版)——何晓群.中国人民大学出版社
#如有错误,请指正!谢谢~
#关注公众号搜索同名文章获取数据~

习题2.3
现选取内蒙古、广西、贵州、云南、西藏、宁夏、新疆、甘肃和青海等9个内陆边远省区。选取人均GDP、第三产业比重、人均消费支出、人口自然增长率及文盲半文盲人口占15岁以上人口的比例等5项能较好的说明各地区社会经济发展水平的指标,验证边远及少数民族聚居区的社会经济发展水平与全国平均水平间有无显著差异。
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第1张图片
将数据导入spss-26
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第2张图片

一、检验变量是否来自于正态总体,服从正态分布

【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第3张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第4张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第5张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第6张图片
得到结果
检验样本是否来自于正态总体可以通过直观的图像观察和正态检验分布表得到结论。

【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第7张图片
正态性检验表给出了正态性检验的结果,因为题目中样本量较少,因此只适用于Shapiro-Wilk统计量,由Sig.(即P值)可以得到,在0.05的显著性水平下,5个变量大于显著性水平值,即大于0.05,因此,可以认为这五个变量都是来自于正态分布的总体中。
下面是每一个变量的QQ图
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第8张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第9张图片
箱型图可以用于鉴别数据中是否存在离群点,即异常数据的检测
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第10张图片

【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第11张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第12张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第13张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第14张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第15张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第16张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第17张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第18张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第19张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第20张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第21张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第22张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第23张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第24张图片
从上述箱型图我们可以看到数据中并不存在离群点,即不存在异常值,因此不需要对数据进行预处理。通过QQ图,点都聚集在拟合曲线的周围,因此认为数据来源于正态分布的总体。

二、多元正态分布有关均值和方差的检验

这里需要先对数据进行分组对比,将全国平均水平记为组别2,9个内地地区记为组别1.
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第25张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第26张图片
将各省市的指标值与全国的平均指标做分组区分,其中组一为全国各省市的指标值,组二为全国平均指标,主体间因子图如下
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第27张图片
对各主体间的因子进行多变量分析,由Sig.可以看到两个分组之间存在着显著的差异,一般线性回归模型对多变量进行了模型的拟合:
在这里插入图片描述
其中,Y=(人均GDP,第三产业比重,人均消费支出,人口自然增长率,文盲半文盲人口占比)’,X为各省市和全国均值。显著性存在差异,即各省市与全国平均的社会经济发展水平存在着一定的差异。

主体间的效应检验是显示了每个指标的分析结果,分别是对不同的指标从各个不同的方差来源进行说明,Ⅲ类平方和是指用typeⅢ的方法计算偏差平方和,偏差平方和是判断原假设是否成立的重要标准,本题原假设为各省市经济发展水平与全国平均水平无明显差异,偏差平方和越大证明各个自变量之间的水平差异大,也就是各省市与全国间存在较大的水平差异,其中存在显著差异的是人均GDP和人均消费支出,其他变量如第三产业比重、人口自然增长率和文盲半文盲人口占比等因素差异不大。

【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第28张图片

三、检验协方差矩阵

步骤:
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第29张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第30张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第31张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第32张图片【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第33张图片
对每个自变量之间的协方差进行检验,得到项间协方差矩阵,其中,第三产业比重、人均消费支出与人均GDP呈正相关,且人均GDP与人均消费支出具有显著的相关关系。
四、单样本的T检验和多变量对比检验
单样本T检验的目的是控制变量在不同水平下,观测变量值看做是来自不同水平下总体的样本,检验均值与是否来自某个指定的检验值之间存在显著差异,即检测其他各省市各个指标之间与全国平均指标之间是否存在显著差异。在单样本T检验的情况下,sig值约为0.00,小于0.05,所以,样本均值与检验值有差异性。
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第34张图片
用一般线性模型对协方差矩阵相等进行检验,由于只创设了各省市和全国两个分组,因此不能计算协方差矩阵的BOX’M等同性检验,不足三个分组,因此无法对T进行事后检验。
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第35张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第36张图片
输出描述性统计,求出各个组别之间的各个变量的均值、标准偏差;可以得到在人均消费支出项中,样本地区的人均消费支出、人均GDP均值均小于全国人均消费支出,而第三产业比重、人口自然增长率和文盲半文盲人口比重均大于全国平均水平。因此证明,边远地区、少数民族聚居地区与全国经济社会发展水平存在着一定差异。
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第37张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第38张图片
由于非空组不足两个,因此未计算误差方差的莱文等同性检验,莱文等同性检验可以说明不同指标之间的多重比较与检验以及检验之间的可信度统计量。

【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第39张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第40张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第41张图片
通过对比估算得到人均GDP组别1与组别2之间,即边远及少数民族聚居区和全国平均水平之间,人均GDP为-2003.232,即说明边远及少数民族聚居区比全国平均水平少2003.232,人均消费支出少1005.111,人口自然增长率与全国相比多出2.712,文盲半文盲人口占比比全国多12.014,因此存在显著性差异。

【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第42张图片
【多元统计分析】均值向量和协方差阵的检验——spss上机实验_第43张图片
对比得到,当显著性大于0.05时,则该变量具有显著性,因此可以看到人均GDP、第三产业比重、人口自然增长率和文盲半文盲人口占比都与边远地区及少数民族聚居区的社会经济发展水平相关。

试验总结:

本次实验中,通过对自变量进行正态性检验,检验样本中的自变量是否来源于正态总体,从而证明该样本可以完成多元正态分布有关均值和方差的检验。对全国和边远民族聚居地区分别进行分组,进行均值和方差的检验,得到模型拟合的方程,在主体间效应检验中,得到了每个自变量中的方差的来源,可以明显看出两组之间的变量存在明显差异,再通过协方差相等的检验和输出比较检验,可以看出是哪些变量导致了边远或少数民族地区与全国平均水平存在差异,可以看出人均GDP、第三产业比重、人口自然增长率和文盲半文盲人口占比都与边远地区及少数民族聚居区的社会经济发展水平相关,边远及少数民族聚居区的社会经济发展水平与全国平均水平存在显著差异。

#参考链接:https://www.cnblogs.com/huangjing1994/p/9959557.html

你可能感兴趣的:(多元统计分析,均值算法,概率论,spss,数据挖掘,数据分析)