本篇文章介绍的是基于Excel和SPSS的数据分析和数据可视化操作.大数据时代,我们每天接受的数据量是巨大的,只有分析数据之间的联系进而才可能得到商机和"钱"途,本篇文章将从最基础的概念入手到实际的对数据的分析实战,从Excel和SPSS两个方面对数据进行分析.
基于SPSS和Excel写了的调查数据分析
统计学
是用已收集数据.分析数据并进而由数据得出结论的一组概念.原则和方法,因而也有人称统计学为统计方法
SPSS和Excel
变量:用来描述总体中成员的某一特性
问卷组成:封面信(目的).指导语(如何填写问卷).问题.答案.编码几个部分组成
问题可分为开放式问题和封闭式问题:
编码:指的是将问题和答案用一个字母或者数字来代替
问卷的结构:开头,正文(调查信息和背景资料)和结尾(可以设置开放题,征询被调查者的意见或者感受,也可以是感谢语以及其他补充说明)三部分组成
1填空题(一般就是填数字的填空题,让调查者容易回答,容易填写的问题可以设置为填空题)
2.二项单选题:
问题的答案只有是和不是(或其他形式但是只有肯定和否定两种形式)
回答者根据自己的情况选择其一
3.多项单选题
给出的答案至少在两个以上,回答者根据自己的情况选择其中一种作为回答,这是各种社会调查问卷中采用最多的一种问题形式,其答案特别适合进行频率分析和交叉分析,在设计上,这种问题形式的关键之处是保证答案的穷尽性和互斥性
4.多项限选题
多项限选也称为限选不排序,与多项选一(多项单选题)有所不同的是,可以在所列举的多个答案中,要求回答者根据自己的情况选择若干个
5.多项排序选(后面处理这种问题是需要加权值进行处理的)
多项排序选也称为限选排序,这种题目可以是针对多项限选题(限选不排序)的不足而出现的一种问题类型,在一定程度上可以看成是多项单选题和多项限选题的一种结合.
6.多项任选题
多项任选也称为不限选.多项任选题是在所提供的的答案中,被调查者可以任意选择各种不同答案的一种问题形式.
7.矩阵题(表格题)
采用矩阵(表格)的形式将同一类型的若干个问题集中在一起,构成一个"大"问题矩阵题通常采用李克特量表
8.相倚问题
答案的设计
穷尽性和互斥性
穷尽性:表示了答案包括了所有可能的情况
互斥性:指的是答案之间不能交叉重叠或互相包含
量表
量表主要是用来测量人们的感觉或者主观判断,它的测量逻辑是假定有相同主观感觉的人会在一个由弱到强的连续线段(维度)的相同位置,标出自己的感觉.
(1)李克特量表 (答案类型在4~8个之间)
(2)博加德斯社会距离量表
(3)语义差异量表(要确定的是人们对于某一事件或者事务的感觉,先找到最强和最弱,然后分为不同的等级,一般为7分等级)
在统计分析之前,必须将问卷数据录入计算机,而在录入之前需要对录入的数据进行核对和清理
Excel技巧:
要改动多个单元格的值为同一个值时
在Ctrl选择多个单元格,写要修改的值然后按Ctrl+Enter确定.
1.单选题的录入(注意题目和答案都用字母或者数字表示)
2.多项单选题
3.多项限选题(两种处理方式:二分法和分类法):建议使用分类法,这样变量的取值比较少
二分法
二分法的关键是:把每个小答案都分为两份,选或者不选(选择这个小选项则用1表示,否则置空表示不选)
二分法:有几个选项就取多少个变量,每个变量有两个取值,一个是1,一个是空,做多限选的个数就是变量中最多能选择的个数.
分类法:
分类法:是只有三个(几项限选就是几个)变量,每个变量的取值都可以是任意的一个答案选项代表的数字或者字母.
相当于把答案分为了n类,每个变量的取值都可以是任意一个选项
二分法相当于把每个选项分为两类,选或者不选
4.多项不限选(推荐使用二分法)
在Excel中求均值.最大值.最小值
均 值 : = a v e r a g e ( 单 元 格 范 围 ) 最 大 值 = m a x ( 单 元 格 范 围 ) 最 小 值 = m i n ( 单 元 格 范 围 ) 均值: = average(单元格范围) \\最大值 = max(单元格范围) \\最小值 = min(单元格范围) 均值:=average(单元格范围)最大值=max(单元格范围)最小值=min(单元格范围)
如果是处理填空题中的求均值,一般把一组数据中的组中值作为该组的度量的标准参与计算,这里可能会使用到if函数
在Excel中使用if函数
= i f ( 函 数 条 件 , 真 值 , 假 值 ) 注 意 : i f 函 数 是 可 以 嵌 套 的 = if(函数条件,真值,假值) \\注意:if函数是可以嵌套的 =if(函数条件,真值,假值)注意:if函数是可以嵌套的
量表:
排序题:
简单筛选:仅仅只筛选出一个选项不符合范围的问卷(这样可能会导致我们需要多次筛选才能得到所有的不符合范围的问卷的编号)
步骤:
高级筛选出所有不符合范围的问卷
分为两种,
条件是或还是与(不符合一个就筛选出来还是全部不符合才筛选出来)
步骤:
避免录入数据时超出有效范围
这样在数据录入时,我们就只能输入规定的数值
同时还可以设置出错警告来给出友好的提示信息.
对于"没有手机’'和"有平均月费"的问题,
1.我们可以通过多次普通筛选(在筛选基础上筛选)来得出结果
2.通过if函数标记处奇异值
=if(and(b2=2,F3<>""),“F”,""):表示的是如果B2的列的值为2且F3的列的值不为空,就用F标记,否则用空标记
解决有逻辑错误的重复值(多项限选题的逻辑不一致性的解决靠函数)
如:你购买的原因1和购买原因2相同,就是逻辑错误的
也可以适用多重筛选来得到结果,但是如果答案的选项很多,就很复杂
我们同样使用函数来解决这个问题
主要是学习or函数的使用
=IF(COUNT(C2:E2)<2,"",IF(OR(C2=D2,D2=E2,C2=E2),“F”,"")):
表示的含义是:从外层开始解释
如果C2到E2的数小于2,即填写的原因只填写了1个,或者没填写,这时置空,否则:
判断如果C2=D2,D2=E2,E2=C2中有一个符合就置为"F",都不符合就置为空
筛选出重复的记录
有的记录是完全重复的记录,我们需要将其删除
分析菜单-------描述统计------频率------具体操作
区分概念:
在SPSS中生成的频率分布表中有百分比,有效百分比,累计百分比
两个步骤:
在已生成的SPSS的一维频率分析表上单击右键----复制------在Excel中粘贴
把我们需要的数据摘抄和进行数据格式的转换(百分数)
左键单击选中要排序的数据列-----在数据选项卡------排序-----在
或者:
数据------排序------操作选择要排序的列
rank(参数1,参数2,参数3):进行排序的函数
=RANK(C2,$C 2 : 2: 2:C$8,0):需要排序根据的是C2的列(单项),排序范围是C2:C8,使用的排序方式是降序排列
注意这种排序的方式使用的是:美式排序,如果有相同的排名就会顶替掉一些排名,如:1,2,2,4,5
COUNTIF(范围(为了范围不发生变化,使用绝对引用),表达式)函数,统计函数:能够统计在某一范围中,表达式出现的次数
如:COUNTIF($B 2 : 2: 2:B$1001,E2)
单选题的一维频率统计图可以是饼图,柱形图,条形图,但是优选饼图,因为单选题的频率之和为100%
绘制单选题的一维频率分布图饼图
(1)选取要绘制饼图的数据来源同时Ctrl选中数据对应的百分比
(2)插入-----饼图
(3)可以修改图表的标题名称和字体大小
(4)不显示图例
(5)点击饼图-----布局----数据标签-----设置数据标签格式(显示类别名称和值):选择数据标签外和按照分行符的格式来显示
(6)设置图表样式—其中样式26是立体的样式
柱形图和条形图的绘制方法基本上和饼图的方法相同
在Excel中绘制的图表会和我们的数据相关联,当我们的数据发生变化时,图表的信息也会发生变化,可实现实时数据的可视化显示
因为填空题所填的数字(数值)的可能性很多,我们不能使用分类法来对所填的数据进行统计一维频率分析,也不能使用二分法进行一维频率分析.因此,我们需要先在SPSS中对数据进行分组和转换.
转换----------重新编码为不同的变量------具体操作
转换后我们可能需要在变量视图中对值的标签中填充我们的值内容
然后点击分析------一维频率分析------选择新编码出来的变量进行分析
就可以得到分析出来的结果
2.使用Excel计算学生的期末的最终成绩
计算百分总成绩:=B220%+C2505+D2*30%
最终成绩是使用了一个用于四舍五入的ROUND(范围单列,保留小数位数):=ROUND(E2,0)
需要突出分数<60分的成绩:开始------条件格式-------突出或新建规则------具体操作
完成最终的成绩统计
1.使用COUNTIF函数来做:符合条件就统计(可以用多条件来实现复合条件)
=COUNTIF(范围,条件)
=COUNTIF($F 2 : 2: 2:F$69,"<=60")
使用多条件来实现复合条件的筛选
=COUNTIF($F 2 : 2: 2:F 69 , " < = 90 " ) − C O U N T I F ( 69,"<=90")-COUNTIF( 69,"<=90")−COUNTIF(F 2 : 2: 2:F$69," >=80")
需要注意条件要用双引号括起来,范围为了拖动时不发生错误要使用绝对位置
2.使用COUNTIFS函数来做:符合复合条件就统计
=COUNTIFS($F 2 : 2: 2:F 69 , " < = 90 " , 69,"<=90", 69,"<=90",F 2 : 2: 2:F$6," >=80")
前面介绍过了RANK函数
标题小三的字体大小(宋体)
正文小四的字体大小(宋体)
1.5倍行距(在段落中设置)
表例和图例的字体大小一般比正文小一号字(一般为五号字)
注意表例要在表的上方
图例要在图的下方
在word中我们的单词可能会下面有红线,找到审阅------拼写和语法-----选择忽略所有
在word中撰写调查报告时插入的表格中列有表格对不齐的情况:选中对不齐的列,按下ALT键进行微调对准
在word中插入我们在Excel中制作好的统计图时,我们选择粘贴的方式如果是图片,那么在Excel中数据发生变化时,我们在word中插入的统计图是不会发生变化的,但是默认的粘贴的方式是,粘贴为图形对象,就是在Excel中的数据发生变化,在word中的统计图表也会发生变化
市场调查和民意调查,经常利用交叉表来分析两个分类(定性)变量之间的关系,比如:性别与品牌偏好.教育程度(学历)与使用品牌.收入与是否有数码相机.性别与移动电话类型偏好.地区与移动电话类型偏好,等等
分析-------描述统计-------交叉表------选择行----选择列------单元格中百分比选择行
要注意是描述的是谁和谁的关系的分析,性别与幸福感,则性别作为交叉表的行变量
然后将表复制到Exce中,进行简单的处理
然后使用Ctrl选中绿色和蓝色来绘制图表,我们在Excel中绘制图表,不同的图表的区别很大,我们首选绘制的是百分比堆积柱状图-------簇状柱形图-------簇状条形图
经过在SPSS中进行交叉表的分析和在Excel中对统计图的简单绘制我们得到了如下的结果
接下来,我们需要调整图表的系列
设计------切换行/列
将数据标签显示在图表的内部:布局------数据标签----选择数据标签内
删除网格线:单击网格线,按下DEL键
设置坐标轴格式:单击选择设置坐标轴格式------坐标轴选项----选择固定填写0.2
设置立体感:设计—样式—选择立体的样式
设置一个图表标题:布局----图表标题----图表上方–输入标题(修改字体大小)
最终效果:
插入-----数据透视图—选择数据范围----选择放置数据透视表的位置(一般选择新的工作表)
关于数据透视表的操作:
概念:
再对数据透视表进行操作:
复制筛选合适的数据,使用函数或者图形化操作生成表格.
根据表格就可以生成统计图
双变量交叉表分析在Excel中分析就是在透视表中不仅有行标签而且有列标签,这样就实现了行列双变量,而数值就是实现的是对双变量的交叉分析.
多选变量:指的就是我们之前所遇到的那种多项不限选题和多项限选题
我们要处理这些问题的数据,我们需要先在SPSS中对数据进行处理
我们这里举例说明一个多项不限选问题的一维频率分析和交叉表分析
首先看一维频率分析,对于多项不限选,现在SPSS中
首先要将该问题的所有选项定义成一个变量集(不论是做一维频率分析还是交叉表分析都需要先定义变量集)
生成了我们的变量集之后:我们对多项不限选问题进行一维频率分析
注意变量的含义
这样就在SPSS中生成了对多项不限选题的一维频率分析
接下来就要把SPSS中的一维频率分析的结果在Excel中转化为调查报告所需的格式.
接下来我们需要根据图表对多项不限选题进行绘制统计图
注意:多项不限选题目我们绘制统计图时首先推荐绘制条形图和柱形图,而不能绘制饼图,因为我们的百分比超过了100%(我们需要分析的是个案百分比)
格式调整之后:
最后就可以在word中做调查报告
多选变量使用分类法是多项限选题
对于使用分类法的多选题的一维频率分析,我们
就得到了多选题的交叉表分析:
然后将表格复制到Excel中进行操作
复制后我们要重新构建表,技巧:原来的表头是横着排列的,我们需要其竖着排列.复制原表头,选择性粘贴中选择转置,对于其他的有横竖转换的粘贴,都可以使用到转置的技巧
在Excel中要求能向下拖动而保证范围不变,一般改变的是第二个参数,要保证横向拖动而范围不变,一般改变的是第一个参数
方法和分类法的方法相同.
问卷回收后,对于数值型数据(定量数据),通常会以均值.中位数.众数等统计量来描述其集中趋势,也会以标准差.最小值.最大值.极差等统计量老描述其离散程度
稳健
注意
分析了在数据是偶数个和奇数个时求中位数的方法,得出了一个统一的方法是:(数据个数+1)/2
图中第二个函数写错了,应该是=ADDRESS(B13+1,2,4)
这里使用到了mod函数(范围,对谁求余数):求余数函数
离散程度描述的是数据散布,即描述集中与离散程度的度量
一般来说,数据越分散,离散程度统计量的值越大
在Excel中求极差就是求出最大值和最小值然后求差.
用到的函数是max函数和min函数
标 准 差 s = 1 n ∑ i = 0 n ( n i − x ˉ ) 2 标准差s=\sqrt{\frac{1}{n}\sum_{i=0}^n(n_i-\bar{x})^2} 标准差s=n1i=0∑n(ni−xˉ)2
s 2 = 1 n ∑ i = 0 n ( n i − x ˉ ) 2 = ( x 1 − x ˉ ) 2 + ( x 2 − x ˉ ) 2 + … + ( x n − x ˉ ) 2 n s^2=\frac{1}{n}\sum_{i=0}^n(n_i-\bar{x})^2=\frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\ldots+(x_n-\bar{x})^2}{n} s2=n1i=0∑n(ni−xˉ)2=n(x1−xˉ)2+(x2−xˉ)2+…+(xn−xˉ)2
因为评分标准不同导致的最终得分不同,那么不同标准不同得分的数据怎么进行比较呢?
就用到了数据的标准得分,数据标准化之后,再比较标准化之后的数据
标准得分(standard score)
:(x-m)/s(m表示均值,x表示原始数据,s表示标准差)分析标准化得分时要分别讨论:
比如题中的得分85和得分73
85分的成绩在1班的成绩中属于中等成绩
73分的成绩在2班的成绩中属于较高的成绩
但是如果是同一份试卷,那么85分的成绩是高于得分74的成绩的
定量变量的
描述统计分析分析------描述统计------描述------选项(添加要分析的项)-----选择显示顺序(一般选择按均值的升序排序)
将描述统计结果复制到Excel中进行转换和绘制统计图
转换方式和绘图方式在前面的章节中有具体的操作,这里不做赘述.
定量变量
的多组均值比较多组均值意思就是在数据之前有不同的分类,比如医院(私人医院,公立医院,学院医院)在分类的情况下讨论其他值的均值的关系,在本例中工作.工资,升职机会都是度量类型的数据.
在SPSS中操作
分析-----比较均值----均值-----自变量列表就是就是分类的变量-----而因变量的类型就是我们的定量变量(变量的类型是度量类型的变量)-------选项中选择要分析的标准(一般为个案数,标准差,均值)
然后将在SPSS中的分析结果复制到Excel中进行数据的转换和统计图的绘制
有序变量的
描述统计分析有序变量指的是:在统计的调查问卷中,我们有时会设置这样的问题:比如你对某几个方面的重要程度进行排序,假如说3个方面,1代表非常重要,2表示无所谓,3表示一点不重要.那么这个变量就是有序变量,
有序变量问题我们在SPSS中把每个选项都使用的是分类法来进行变量的描述
现在我们就要讨论对有序变量的描述统计分析
分析------描述统计------描述------把要分析的多个方面都添加到分析变量中-------选项(一般只选择均值,并选择按照均值的升序排序)
然后将在SPSS中的分析结果复制到Excel中进行数据的转换和统计图的绘制
然后进行调查报告的编写(这里截取了书中标准的模板,这个也是调查报告的标准模板)
有序变量
的多组均值比较和多组定量变量同样也就存在多组有序变量,意思就是在原本有序变量的基础上加上了分组(或者称为分类)
分析-------比较均值---------均值-------添加类别变量到自变量菜单---------添加因变量(也就是那些我们要分析的定序变量)----------选项(这里我们只分析均值,也可以添加上个案数)
然后将在SPSS中的分析结果复制到Excel中进行数据的转换和统计图的绘制
这是最终结果
我们在自己绘制统计图时可能会因为建表不同而导致和规定的图表不同
这是我们要点击设计-------切换行/列来转换统计图的行列的格式
矩阵题:
多个题目都有同一分类度量的标准
数据选项卡----数据分析----描述统计--------选择数据区域-----逐列分组-------选中标志位于第一行-----选择输出区域(只能选取一个单元格)------选中汇总统计
图表进行处理
排序(根据满意度)
绘制统计图调整统计图的格式
最终结果
我是一个
普通二本
的学生,可能写的有不周到之处,希望各位大佬指点.让我们一起努力,不过平庸的生活.
如果您感觉`我写的不错麻烦点个赞.如果有什么
问题
,可以留言我们一起探讨
如果有什么建议
,也可以留言给我,我会虚心的接收,
最后谢谢您
,看完了我的文章